论文部分内容阅读
代谢是新陈代谢的简称,是一系列作用于细胞中的化学反应的总和,楚生物体维持生命的化学反应的总称。代谢反应使得生物体得以生长和繁殖,保持生物体的结构,并能对环境作出反应。小分子参与了代谢反应的整个过程。小分子是分子量比较小的天然化合物,通常是指相对分子质量小于1000道尔顿(尤其是小于400道尔顿)的生物功能分子。小分子可以参与包括代谢反应在内的很多生物过程,据估计,与生物过程有联系的小分子的祌类数目至少有10万多个,而迄今为止己搞清楚其生物学功能的尚不足其中的1%。因此,进行小分子的生物学功能识别和预测研究,有助于理解生命过程中一些问题的生物学和化学本质。然而目前小分子的生物学功能研宄缺少成熟的研宄方法和技术,对于其认识大多来源于专家经验,而使用大规模的实验手段鉴定小分子的生物学功能,需要耗费大量的时间、人力和物力。值得庆幸的是,通过搜集整理小分子生物学功能研宂的实验成果,利用数据挖掘方法总结已知数据中隐含的规律1进而预测未知小分子的生物学功能,由此可以提供除了专家经验以外的另一种途径,使用数据挖掘方法进行小分子的生物学功能识别和预测研宂.首先要解决的问题就是如何对小分子进行参数表征,这对于数学模型的建立起到至关重要的作用。经过比较现有的商业和开源的分子描述符计算程序,选用了ChemAxon公司的Calculator Plugins等程序,使用Java语言对其进行了二次幵发,幵发了一个方便易用且可自行定钊的批量计算小分子的分子描述符的计算程序。程序极大地提髙了小分子的分子描述符计算的便捷性和计算效率,为小分子的生物学功能识别和预测研究提供了高效的工具.正确有效地把具-有重要生物学意义的小分子映射到其相对应的代谢途径,将有助于人们更加深入地进行代谢分析,更为深刻地理解小分子的代谢机理》使用ChemAxon公司的JChem for Excel软件批量计算小分子的分子描述符*基于mRMR算法(minimum Redundancy Maximum Relevance)和FFS算法(Feature ForwardSearch)进行特征选择,采用以C4.5决策树算法为基本分类器的Ackboost算法预测了小分子可能参与的代谢途径的类型。由此所建立模型的10折交叉验证测试和独立测试集测试的预测正确率分别为83.88%和85.23%,与使用官能团组成表征小分子的方法相比,预测结果有了显著的提高。还使用HyperChem软件计算小分子的分子描述符,基于CFS (Correlation-based Feature Subset)算法进行特征选择*采用以最近邻算法为基本分类器的Bagging算法预测了小分子可能参与的脂类代谢的子代谢途径,所建模型对Jackknife交叉验证和独立测试集的预测正确率分别是89.85%和91.46%。在代谢途径中,小分子通过与酶的相互作用,参与了整个代谢过程。研宂小分子与酶的相互作用,可以根据己知的"小分子-酶作用对”预测未知的小分子和酵能否相互作用,进而为探索各种代谢或催化机理提供新的研宂思路。使用所开发的计算程序的计算结果表征小分子,使用改进的拟氨基酸组成表征酶,对代谢途径中小分子和酶的相互作用进行研宄。结合使用mRMR算法、IFS (IncermentalFeature Selection)算法和FFS算法进行特征选择,釆用最近邻算法进行建模,其10折交叉验证测试和独立测试集测试的预测正确率分别为85.19%和85.32%,其中正样本的预测正确率分别为86.02%和86.74%,与前人的研宄工作相比,正样本的预测正确率有较大的提高。使用投票法对蛋白质与RNA的相互作用进行了研宂,有关研宄结果有助于理解蛋白质如何控制基因表达。从Weka软件中选取了34种分类算法,建立了四种投票系统。结果表明,投票法的预测结果优于单一分类算法的预测结果,并且使用算法选择和对算法进行加权可以优化预测结果。使用含算法选择的加权多数投票系统取得了最佳的预测结果,独立测试集测试的平均ACC (overall predictionaccuracy)值和平均MCC (Matthew’s Correlation Coefficient)值分别达到82.04%和64.70%?