1-复杂的关联性研究

Date : [[2022-01-10_Mon]]
微信公众号 : 北野茶缸子
Tags : #统计/因果推断/孟德尔随机化

1-复杂的关联性研究

y = α + βx + ε

尝试通过简单回归，来判断x 与 y 的关系。

可是这样做，都不能排除潜在的（potential confounders，C）、无法测量的混杂因素（unmeasured confounders，U）的影响。

它们可能同时会对x 与y 产生影响。

举例来说，如果想要研究教育程度（接受教育年份）对未来收入（薪资）的影响，我们的确可以对二者进行回归，假定我们也的确发现了二者的相关性。

但此时，我们得到的相关系数beta，并不能用来评价这个教育程度对未来收入的影响。因为还有很多的混淆因素，并没有被考虑，比如家庭背景等等。

因此，这样得到的相关有非常大的“虚假关联”的可能。这里换个例子，比如说，我们发现冰淇淋的销量增长，溺水的人数也在增长，直觉上我们就可以发现有一些不对劲，如果你得到结论，“冰淇淋销量与溺水人数是正相关的”，我们不可以再卖冰淇淋了，那么这里就落入了虚假关联的圈套。比如说，这里“温度“就是一个混淆因素：温度升高，买冰淇淋的人多了，冰淇淋销量升高；人们同样为了解暑，去游泳的人多了，那么溺水的人数自然也就上升了。

此外，小时候在院子里种了一棵桃树，随着时间的推移，你的个子在长，桃树也在变高，如果说“我长桃树也长”是有关系的，那么同样也是被”虚假关联“给骗了。这里的混淆变量是什么呢？

如果去探索医学科研中的“暴露”与“结局”之间的因果性呢？比如控制变量，比如广泛收集每个样本的各种暴露与结局？

然而，现实研究的案例，往往比上述案例要复杂。我们也未必能确定这些混淆因素的种类；另外，即便我们收集了这些混淆因素，我们也不便对它们控制变量。

那么我们该如何进行呢？

队列虽好，却是可望不可及的。而更加省时省力的病例对照研究，受限于其研究设计，只能得到相关系，而无法得到因果性。为了解决这一问题，统计学家们就设计了孟德尔随机化（Mendelian Randomization, MR）。 ——孟德尔随机化 | Mendelian randomization - Life·Intelligence - 博客园 (cnblogs.com)

Next2-工具变量

Last updated 3 years ago