9-展望

因为我本人能力有限，基本统计学与因果推断的概念这几天算是看的头大，望各位指正。当然，也希望未来的我自己手下留情。

9.1-最大的疑惑

在 An example of two-stage least squares (2SLS) method with R (rstudio-pubs-static.s3.amazonaws.com) 中。

作者是先预设了一组满足关系的数据：y=a+bx+cd+e y<-10+1*x+1*d+e

接着通过制作假数据，来让假数据分别按照OLS 与2SLS 来计算拟合值，并最终发现2SLS 的拟合值最为接近。

可是，在真实研究中，比如oneSampleMR，我们如何得到这个真阳性的标准呢？

即便我们可以通过判断工具变量与我们的解释变量是强相关的，是可以被使用的，这个2SLS 可以更好的拟合，那么如何来评价它有多好呢？难道仅仅是和一个相对较差的方法比？（OLS）

除此之外，在twoSampleMR 的包中采用的过程里：

我看到有教程直接通过这个pval 来判断是否存在因果。

那么是否说明，我们的2SLS 的Wald test，也可以作为判断因果的标准呢：

Residual standard error: 326.2 on 3008 degrees of freedom
Multiple R-Squared: -0.538,	Adjusted R-squared: -0.5385 
Wald test:  48.8 on 1 and 3008 DF,  p-value: 3.482e-12

9.2-其他孟德尔随机化方法

我发现，目前生命科学领域结合GWAS 公共数据分析，主要采用的还是twosampleMR，可以参见：Using published data in Mendelian randomization: a blueprint for efficient identification of causal risk factors

而同样也有包提供了相关的方法：Perform MR • TwoSampleMR (mrcieu.github.io)

我们可以直接利用这个R 包获得GWAS 上与感兴趣暴露因素和结局相关的遗传突变作为工具变量，直接利用内置的函数和统计方法进行分析。

mr_method_list()
#>                              obj
#> 1                  mr_wald_ratio
#> 2               mr_two_sample_ml
#> 3            mr_egger_regression
#> 4  mr_egger_regression_bootstrap
#> 5               mr_simple_median
#> 6             mr_weighted_median
#> 7   mr_penalised_weighted_median
#> 8                         mr_ivw
#> 9                  mr_ivw_radial
#> 10                    mr_ivw_mre
#> 11                     mr_ivw_fe
#> 12                mr_simple_mode
#> 13              mr_weighted_mode
#> 14         mr_weighted_mode_nome
#> 15           mr_simple_mode_nome
#> 16                       mr_raps
#> 17                       mr_sign
#> 18                        mr_uwr

9.3-不同的孟德尔随机思路下的统计方法

比如上述提到的twoSampleMR 就包括了如此之多的方法。

除了方法上的oneSampleMR 选择同一类型样本对应的暴露与结局数据，而twoSampleMR 则选择不同的（不对应的）暴露与结局数据外，二者有什么本质区别呢？

此外，不同的思路下的统计方法，该如何选择呢？

另外的双向MR（Bidirectional MR）、两阶段MR（Two-step MR）、基因-暴露交互作用MR（Gene-exposure interactions）又有什么选择和应用呢？

9.4-局限性

这里摘自：孟德尔随机化法在因果推断中的应用 (rhhz.net)

近年来各种统计新方法、大样本GWAS数据、分子表观遗传学以及各种“组学”技术的应用，MR仍然有些问题比较棘手：

难以发现合适的遗传工具变量：并非所有SNPs都适宜作为工具变量，基于GWAS的GRS也并非完美，很难控制弱工具变量偏倚[32]。
把握度较低：只有通过扩大样本量获得足够的把握度，比如使用仅占1%效应的遗传工具探讨暴露和疾病之间的关联，至少需要9 500对以上的病例和对照样本才能有80%的把握度获得增加50%（OR=1.5）的生物学效应（每个标准差水平）[33]。
Beavis效应：基于GWAS数据的MR研究可能会高估了遗传和暴露之间的关联，亦被称之为“胜利者的诅咒（the winner ’s curse）”，因为SNPs与混杂因素之间可能有潜在的关联[34]。
合理的生物学解释：MR研究发现高水平IL 6R可降低心血管疾病（CAD）的风险[16]，而观察性研究结果提示IL 6R与CAD风险增加有关[35]，因此需要进一步研究验证。尽管如此，MR仍然在因果推断中发挥了重要作用，并不断完善。

Previous8-生物学上的应用 Next10-拓展阅读与参考

Last updated 4 years ago

hashtag9-展望

hashtag9.1-最大的疑惑

hashtag9.2-其他孟德尔随机化方法

hashtag9.3-不同的孟德尔随机思路下的统计方法

hashtag9.4-局限性

9-展望

9.1-最大的疑惑

9.2-其他孟德尔随机化方法

9.3-不同的孟德尔随机思路下的统计方法

9.4-局限性