论文部分内容阅读
绝大多数人类疾病以及农艺性状都属于复杂性状,通常受到大量的遗传因素的控制以及环境因素的控制。阐明复杂性状的遗传机制,对人类复杂疾病的致病机理研究、诊断预防以及新药的研发都有重要的意义,也为动植物品系的改良、产量及品质的提高奠定基础,因此具有重要的科学意义以及实际应用价值。目前复杂性状基因组定位技术已经取得了一些成果,然而这些方法在不同环境中再现率低以及遗漏了大量微效位点,难以有效阐明复杂性状的分子机制以及准确预测表型。此外,包括miRNA在内非编码调控元件与复杂性状紧密关联,挖掘这些关联是当前研究的热点和难点。针对于此,本研究围绕着复杂疾病相关miRNA的预测及甘蓝型油菜农艺性状相关位点的全基因组分析进行了研究,主要内容如下:(1)采用文本挖掘的方法建立癌症与miRNA之间的关联网络,并挖掘潜在的癌症相关miRNA。首先,对MEDLINE摘要中的miRNA与癌症的关联进行挖掘,并将结果整理为miCancerna数据库。而后,在miCancerna数据库构建的miRNA与癌症关联二分网络上,利用重启型随机游走算法预测20种常见癌症类型的相关miRNA。交叉结果显示,这种预测方法取得的感应性曲线下面积为0.798,其预测性能高于其他同类方法。进一步对每种癌症的潜在相关miRNA进行挖掘,结果发现在所有癌症的排名前5的候选miRNA中,71%的预测结果都可以得到实验证据的支持。(2)提出了一个新的度量miRNA功能相似程度的策略。该策略利用miRNA引文的文本相似性来推测miRNA在功能上的相似程度,并在此基础上挖掘潜在的疾病与miRNA的关联。首先通过对MEDLINE摘要进行挖掘,构建了一个涵盖了大量miRNA(共1,007个)的功能相似性数据集。分析发现,该分值符合生物学假设,能有效反映miRNA表达相似性的变化趋势以及区分疾病与非疾病的miRNA对。之后根据该相似性分值构建miRNA功能相似性网络,最终应用重启型随机游走算法对潜在的miRNA与疾病的关联进行挖掘。交叉验证结果显示,这种预测方法具有较高的预测性能。另外,本方法对潜在与结肠癌、子宫内膜癌、肺癌以及心肌病相关的miRNA预测的大部分结果存在实验数据支持。与现有的miRNA功能相似性度量标准相比,本研究提出的基于文本的miRNA功能相似性的度量方法具有更广泛的应用范围、更高的可靠性和更优越的挖掘潜在疾病miRNA的能力等优点。(3)除了人类疾病相关miRNA预测之外,本文还重点研究了植物的复杂农艺性状。本文对全基因组育种模型在油菜开花期性状中的应用进行了评测,并对相关位点进行了定位及功能分析。首先构建了高通量、高密度的甘蓝型油菜全基因组SNP数据集,对三个种植地的十个自然环境下的油菜开花期性状进行了分析。利用该数据集对现有的全基因组预测模型(包括线性模型、半参数模型以及机器学习模型等)在多个自然环境下的油菜开花期的预测效果进行评测。结果表明,所有模型都取得了较高的精度,验证了全基因育种模型在油菜中的可行性。随后,基于综合了同一种植地多个自然环境的育种值,利用随机森林模型对多地区的油菜开花期性状进行了全基因组定位,并应用多元自适应回归样条法对上位效应进行分析。在全基因组范围内发现435个显著的开花期性状相关的SNP,其中部分SNP定位在已知开花期基因中,而在部分已知的开花期相关基因间存在上位效应。功能分析结果表明被这些SNP标记的基因大多参与了花形成的生物学过程。(4)结合蛋白质互作网络、基因调控网络以及高密度的全基因组SNP数据,采用基于网络方法对甘蓝型油菜的含油量性状进行了全基因组定位。结果表明,与传统的单变量检测方法相比,这种基于网络的方法具有更高的再现率及可靠性,可以发现多环境共有的遗传因子。此外,在基于该方法得到的与含油量相关的候选基因中,与油分积累机制相关的生物学过程显著富集,还发现了一些与温度刺激反应有关的显著功能注释,印证了油菜的含油量性状与环境因素有关。综上所述,本研究利用多种手段,分析了人类疾病及植物的农艺性状等复杂性状,并基于此开发了多种方法用于癌症基因的预测以及对油菜的开花期及含油量性状的定位。本研究有望为疾病致病机理研究以及植物产量和品质的改进提供帮助。