9-展望

9-展望

因为我本人能力有限,基本统计学与因果推断的概念这几天算是看的头大,望各位指正。当然,也希望未来的我自己手下留情。

9.1-最大的疑惑

An example of two-stage least squares (2SLS) method with R (rstudio-pubs-static.s3.amazonaws.com) 中。

作者是先预设了一组满足关系的数据:y=a+bx+cd+e y<-10+1*x+1*d+e

接着通过制作假数据,来让假数据分别按照OLS 与2SLS 来计算拟合值,并最终发现2SLS 的拟合值最为接近。

可是,在真实研究中,比如oneSampleMR,我们如何得到这个真阳性的标准呢?

即便我们可以通过判断工具变量与我们的解释变量是强相关的,是可以被使用的,这个2SLS 可以更好的拟合,那么如何来评价它有多好呢?难道仅仅是和一个相对较差的方法比?(OLS)

我看到有教程直接通过这个pval 来判断是否存在因果。

那么是否说明,我们的2SLS 的Wald test,也可以作为判断因果的标准呢:

Residual standard error: 326.2 on 3008 degrees of freedom
Multiple R-Squared: -0.538,	Adjusted R-squared: -0.5385 
Wald test:  48.8 on 1 and 3008 DF,  p-value: 3.482e-12 

9.2-其他孟德尔随机化方法

我发现,目前生命科学领域结合GWAS 公共数据分析,主要采用的还是twosampleMR,可以参见:Using published data in Mendelian randomization: a blueprint for efficient identification of causal risk factors

而同样也有包提供了相关的方法:Perform MR • TwoSampleMR (mrcieu.github.io)

我们可以直接利用这个R 包获得GWAS 上与感兴趣暴露因素和结局相关的遗传突变作为工具变量,直接利用内置的函数和统计方法进行分析。

mr_method_list()
#>                              obj
#> 1                  mr_wald_ratio
#> 2               mr_two_sample_ml
#> 3            mr_egger_regression
#> 4  mr_egger_regression_bootstrap
#> 5               mr_simple_median
#> 6             mr_weighted_median
#> 7   mr_penalised_weighted_median
#> 8                         mr_ivw
#> 9                  mr_ivw_radial
#> 10                    mr_ivw_mre
#> 11                     mr_ivw_fe
#> 12                mr_simple_mode
#> 13              mr_weighted_mode
#> 14         mr_weighted_mode_nome
#> 15           mr_simple_mode_nome
#> 16                       mr_raps
#> 17                       mr_sign
#> 18                        mr_uwr

9.3-不同的孟德尔随机思路下的统计方法

比如上述提到的twoSampleMR 就包括了如此之多的方法。

除了方法上的oneSampleMR 选择同一类型样本对应的暴露与结局数据,而twoSampleMR 则选择不同的(不对应的)暴露与结局数据外,二者有什么本质区别呢?

此外,不同的思路下的统计方法,该如何选择呢?

另外的双向MR(Bidirectional MR)、 两阶段MR(Two-step MR)、基因-暴露交互作用MR(Gene-exposure interactions)又有什么选择和应用呢?

9.4-局限性

这里摘自:孟德尔随机化法在因果推断中的应用 (rhhz.net)

近年来各种统计新方法、大样本GWAS数据、分子表观遗传学以及各种“组学”技术的应用,MR仍然有些问题比较棘手:

  • 难以发现合适的遗传工具变量:并非所有SNPs都适宜作为工具变量,基于GWAS的GRS也并非完美,很难控制弱工具变量偏倚[32]。

  • 把握度较低:只有通过扩大样本量获得足够的把握度,比如使用仅占1%效应的遗传工具探讨暴露和疾病之间的关联,至少需要9 500对以上的病例和对照样本才能有80%的把握度获得增加50%(OR=1.5)的生物学效应(每个标准差水平)[33]。

  • Beavis效应:基于GWAS数据的MR研究可能会高估了遗传和暴露之间的关联,亦被称之为“胜利者的诅咒(the winner ’s curse)”,因为SNPs与混杂因素之间可能有潜在的关联[34]。

  • 合理的生物学解释:MR研究发现高水平IL 6R可降低心血管疾病(CAD)的风险[16],而观察性研究结果提示IL 6R与CAD风险增加有关[35],因此需要进一步研究验证。尽管如此,MR仍然在因果推断中发挥了重要作用,并不断完善。

Last updated