9-展望
Last updated
Last updated
因为我本人能力有限,基本统计学与因果推断的概念这几天算是看的头大,望各位指正。当然,也希望未来的我自己手下留情。
在 中。
作者是先预设了一组满足关系的数据:y=a+bx+cd+e
y<-10+1*x+1*d+e
接着通过制作假数据,来让假数据分别按照OLS 与2SLS 来计算拟合值,并最终发现2SLS 的拟合值最为接近。
可是,在真实研究中,比如oneSampleMR,我们如何得到这个真阳性的标准呢?
即便我们可以通过判断工具变量与我们的解释变量是强相关的,是可以被使用的,这个2SLS 可以更好的拟合,那么如何来评价它有多好呢?难道仅仅是和一个相对较差的方法比?(OLS)
除此之外,在twoSampleMR 的包中采用的过程里:
我看到有教程直接通过这个pval 来判断是否存在因果。
那么是否说明,我们的2SLS 的Wald test,也可以作为判断因果的标准呢:
我们可以直接利用这个R 包获得GWAS 上与感兴趣暴露因素和结局相关的遗传突变作为工具变量,直接利用内置的函数和统计方法进行分析。
比如上述提到的twoSampleMR 就包括了如此之多的方法。
除了方法上的oneSampleMR 选择同一类型样本对应的暴露与结局数据,而twoSampleMR 则选择不同的(不对应的)暴露与结局数据外,二者有什么本质区别呢?
此外,不同的思路下的统计方法,该如何选择呢?
另外的双向MR(Bidirectional MR)、 两阶段MR(Two-step MR)、基因-暴露交互作用MR(Gene-exposure interactions)又有什么选择和应用呢?
近年来各种统计新方法、大样本GWAS数据、分子表观遗传学以及各种“组学”技术的应用,MR仍然有些问题比较棘手:
我发现,目前生命科学领域结合GWAS 公共数据分析,主要采用的还是twosampleMR,可以参见:
而同样也有包提供了相关的方法:
这里摘自:
难以发现合适的遗传工具变量:并非所有SNPs都适宜作为工具变量,基于GWAS的GRS也并非完美,很难控制弱工具变量偏倚[]。
把握度较低:只有通过扩大样本量获得足够的把握度,比如使用仅占1%效应的遗传工具探讨暴露和疾病之间的关联,至少需要9 500对以上的病例和对照样本才能有80%的把握度获得增加50%(OR=1.5)的生物学效应(每个标准差水平)[]。
Beavis效应:基于GWAS数据的MR研究可能会高估了遗传和暴露之间的关联,亦被称之为“胜利者的诅咒(the winner ’s curse)”,因为SNPs与混杂因素之间可能有潜在的关联[]。
合理的生物学解释:MR研究发现高水平IL 6R可降低心血管疾病(CAD)的风险[],而观察性研究结果提示IL 6R与CAD风险增加有关[],因此需要进一步研究验证。尽管如此,MR仍然在因果推断中发挥了重要作用,并不断完善。