论文阅读(十二)：全基因组关联研究中生物通路的图形建模

1.论文链接：Graphical Modeling of Biological Pathways in Genome- wide Association Studies

摘要：

全基因组关联研究（Genome-wide association studies，GWASs）被广泛应用于寻找疾病相关基因的候选者，以进行后续研究。然而，对生物学途径和相互作用的了解可能会提高在GWAS中做出真正发现的可能性。在对基因进行优先排序时，已经开发了许多方法来结合先前的生物学知识。然而，大多数方法都是将特定途径中的基因作为一个可交换集来处理，而没有考虑该途径的拓扑结构.根据对克罗恩病队列进行的标准关联研究的结果，首次证实了一个通路中的相邻基因更有可能共享相同的疾病状态。最后，本文提出了一种马尔可夫随机场模型，将路径拓扑结构引入到关联分析中。我们证明了我们的MRF模型的条件分布具有简单的logistic回归形式。最后，在真实的数据上的实验结果表明，本文提出的模型是有效的。

关键词：全基因组关联研究，生物学途径，马尔可夫随机场

全基因组关联研究（GWASs）广泛用于鉴定与复杂疾病相关的基因变异。在GWAS中，需要对基因进行优先排序，即，以确定疾病相关基因的良好候选者，这些基因对于进一步的后续研究是有意义的。另一方面，在生物学途径和相互作用的文献中积累了许多知识。可以想象，适当地纳入这些先验知识，可能会提高在全球水域评价系统中发现真正的油气的可能性。在对基因进行优先排序时，已经开发了许多方法来结合先前的生物学知识。然而，大多数方法都是将特定途径中的基因作为一个可交换集来处理，而没有考虑该途径的拓扑结构.基因在通路中如何在功能上相互关联对于GWAS分析可能是非常有用的信息，并且这样的信息可以用于增加检测真实的关联的能力。当通过GWAS或先前的基于候选基因的研究已经为一些基因完全建立了关联时，人们可以利用这一知识来检查与这些已知基因相关的其他基因，这些基因通过它们都参与的相同途径。根据对克罗恩病队列进行的标准关联研究的结果，首次证实了一个通路中的相邻基因更有可能共享相同的疾病状态。在此基础上，提出了一种马尔可夫随机场（MRF）模型，将路径拓扑结构引入到关联分析中.我们证明了我们的MRF模型的条件分布具有简单的logistic回归形式。最后，在真实的数据上的实验结果表明，本文提出的模型是有效的。

12.1介绍

全基因组关联研究（GWAS）被广泛用于识别与复杂疾病相关的遗传变异。病例对照样本设计通常用于选择具有大量单核苷酸多态性（SNP）和其他变体的个体并对其进行基因分型，例如，拷贝数变异（CNVs）。然后，研究人员检查这些标记物，以确定它们与疾病的关联，或优先考虑后续研究的标记物。在大多数已发表的研究中，检索仅限于单个标记物。然而，这种方法可能缺乏足够的统计能力，真正的发现。通常情况下，个体标记物的相对风险（称为效应大小）很小，样本量也不是很大，特别是当次要等位基因频率很低时。因此，单一标记分析可能比同时考虑多个标记和多个基因提供的信息少，因为基因可能相互作用，并可能共同影响疾病风险。此外，过去的生物学和生物信息学研究积累了大量关于生物学途径和基因-基因相互作用的知识。适当地结合基因和途径的先验知识可能会提高做出真正发现的机会。为了提高统计功效，已经开发了许多方法，包括（1）聚集位于相同基因区域或相同单倍型区块中的多个标记，以及（2）将来自其他来源的信息并入GWAS分析中。据报道，基因水平分析可以识别除了使用单个SNP艾德的关联之外的新关联[23，28]。基于基因的分析包括使用基因内和附近最显着的SNP的分析[28]、来自所有单个标记的组合统计（Fisher、Sidat和Simes）[23]、主成分分析回归[2]和稀疏偏最小二乘回归[9]。

一个信息丰富的资源是包含已知基因途径和蛋白质蛋白质相互作用的现有数据库，如BioCarta（http：//www.biocarta.com/genes/index.asp）、GeneMAPP [25]、KEGG（京都基因和基因组百科全书）[16]和HPRD（人类蛋白质参考数据库，http：//www.hprd.org/）@。由于基因在生物过程中相互作用，它们可能共同影响复杂疾病的风险。正如稍后将展示的，可以利用图形建模来明确地建模通路中基因的关系。在GWAS中，希望优先考虑基因，即，以确定疾病相关基因的良好候选者，这些基因对进一步的后续研究有意义。已经开发了许多方法来在对基因进行优先排序时结合先前的生物学知识。[11][12][13][14][15][16][17][18][19][1这些研究表明，将先前的生物信息纳入GWAS是有用的。然而，基因之间的功能关系没有被考虑，因为这些方法通常采用基因列表而不是完整的网络结构作为其输入数据。通过这种方式，列表中的基因被视为可交换的，并且不考虑由途径揭示的调控关系和相互作用。因此，有关通路拓扑结构和基因间相互作用的信息通常被忽略。然而，基因在一个途径中如何在功能上相互关联对于GWAS分析可能是非常有用的，并且这些信息可以用于增加检测真实的关联的能力。当通过GWAS或先前基于候选基因的研究为某些基因建立了关联时，人们可以利用这些知识来检查与这些已知基因相关的其他基因，这些基因都参与了相同的途径。

在这一章中，我们介绍了马尔可夫随机场（MRF）模型，图形建模方法之一，将生物途径信息GWAS。在[8]中讨论了这个模型，在这里我们提供了更多的阐述和数学推导，这些都是在以前的出版物中省略的。我们注意到，有几篇论文已经考虑了MRF来结合基因组学研究中不同来源的联合收割机数据，例如，基因表达和ChIP芯片数据的空间正态混合模型[29]，信使RNA微阵列数据的Gamma-Gamma模型和MRF [30]，以及通过结合基因表达和蛋白质相互作用数据对基因进行优先排序[20]。Li等人[19]提出了在连锁不平衡中联合分析标记的背景下GWAS的隐藏MRF。

12.2基因通路的MRF建模

我们首先考虑一个图形模型，其中的生物途径是由一个无向图表示。图12.1显示了这样一个图的例子，其中每个节点代表一个基因，每条边代表一对基因之间的相互作用。我们定义一个图G为（V，E），其中V是图中n个基因（节点）的集合，E表示所有边的集合：

接下来，我们需要给S分配一个概率测度。首先，我们展示了一个克罗恩病GWAS的激励性示例[10]。正如下面将要展示的，结果清楚地表明，在一个途径内的相同邻域中的基因倾向于显示相似的关联状态。该克罗恩病队列包括401例病例和433例对照，使用Illumina HumanHap300微珠芯片进行基因分型。为了分析这些数据，我们首先将SNPs定位到基因上，然后应用主成分分析回归获得与克罗恩病状态相关性检验的基因水平p值[2]。有关此数据集的更多详细信息将在后面的真实的数据示例中给出。然后，我们从BioCarta、GeneMAPP和KEGG中获得了途径信息。我们研究了350多个途径中的总共3735个基因。为了避免连锁不平衡（LD）的影响，排除了同一染色体上的基因和100万个碱基对以内的基因.为了观察基因在同一途径中相互连接时是否倾向于显示相似的关联证据，我们使用了0.15的截断值。基因被认为是感兴趣的，如果它们的p值低于这个临界值，则用+1标记。请注意，我们使用了一个相对宽松的阈值，使得足够多的基因被称为“感兴趣的”，这个宽松的截止值也反映了我们的信念，即许多基因的影响很弱，只显示出适度的关联证据。在路径k中，我们考虑连接一对“感兴趣的”基因的边的数量，它取决于所有基因的标签。我们将此数字表示为Dk。较大的Dk值表明“感兴趣的”基因更可能是相邻基因。为了评估观察到较大Dk值趋势的统计证据，我们采用了如下排列程序。零假设是相邻基因没有具有相似疾病相关性状态的趋势，即，“有趣”与否。在每一个排列中，我们随机排列所有基因的“有趣”标签，并得出一个排列统计量。这些排列的统计量被用于在零假设下得出Dk的经验分布。然后，我们将观察到的Dk统计量与经验分布进行比较。最后，计算该经验分布中观察到的Dk的p值。接近0的p值表明“感兴趣的”基因往往是邻居。对所有途径重复这一过程，所有途径的Dk的p值直方图如图12.2所示。很明显，这种分布高度向左倾斜，这表明相关基因往往是给定途径中的邻居。

12.3贝叶斯框架

12.3.1先前规范和可能的功能

12.3.2后验分布

12.3.3基于后验分布进行推断

12.3.4数值研究

模拟研究先前的效应

具有少量相关基因的大通路的模拟

12.3.5真实的数据示例-克罗恩病数据

克罗恩病[10]数据集用于评价贝叶斯模型的性能。克罗恩病是一种炎症性肠病，其特征在于肠的不连续段的慢性炎症。研究发现，这种疾病与多种因素的相互作用有关，包括遗传易感性、患者的肠道微生物群、患者对这些微生物群的免疫反应以及环境触发因素[26]。已经确定克罗恩病具有很强的遗传成分[22]。

分析中使用的队列包括401例病例和433例对照。保留调用率大于0.9、次要等位基因频率大于0.01和Hardy-Weinberg平衡p值大于0.001的SNP，而调用率小于0.95的受试者从分析中移除。最后，397例病例和431例对照仍在分析中。

如果它们的物理位置在基因转录起始位点上游10 kb和转录终止位点下游10 kb之间的范围内，如国家生物技术信息中心网站上的RefSeq注释所给出的，则它们被定位到基因。然后，对定位到该基因的所有SNP进行主成分分析。最后，通过对占这些SNP变异至少85%的主要成分的疾病状态进行回归，获得基因水平的p值[2，12，27]。R代码和途径的示例以及基因水平的p值可以在http://bioinformatics.med.yale.edu/group上找到。

12.4讨论

在本章中，我们描述了一个MRF模型和贝叶斯框架，将生物途径的先验知识纳入GWAS @。MRF模型的一个限制是吉布斯采样器倾向于长时间围绕局部最大值移动，因此在收敛到后验分布时可能很慢。我们建议使用多次随机重启运行MCMC，并检查网络统计数据的抽样分布，例如标记为+1的基因数量以及连接具有相同标签的基因的边的比例。在我们的研究中，我们发现马尔可夫链最初从其起始状态非常迅速地移动，通常在前10到20步内，然后达到某种稳定状态，并在此后的很长一段时间内稳定下来。我们建议为每个随机起始状态运行100个吉布斯步骤，并进行100次或更多次重新启动的模拟。对于子节12.3.4中的60个基因网络，在具有2.5GHz Intel Core 2 Duo CPU和4GB内存的PC上，该方案的计算时间约为一分钟。在同一台PC上运行克罗恩病数据的路径需要不到一分钟到几分钟。基于途径的分析的另一个局限性是，并非所有的基因都与途径相关。随着知识的积累，可能会有更多的基因被映射到通路上。