基于数据挖掘的基因和疾病的关系研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:foreststonezgdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用先进的数据挖掘方法分析研究基因和疾病之间的关系有助于发现疾病的发生机制,从而为疾病的诊断和个性化治疗提供科学依据。但是,基因相关信息的数据通常具有高维小样本、高噪声、高冗余的特点,这使得很多优秀的数据挖掘和机器学习方法在处理分析基因与疾病相关数据时效果较差。因此,需要针对具体基因和疾病的相关数据的特点,设计合适的算法模型来进行数据分析。在本论文中,针对不同基因与疾病相关数据的特点,从基因功能预测,特征基因选择和miRNA和疾病的关系三个方面对基因与疾病的关系进行了分析研究。提出了一系列相应的数据挖掘方法对其进行处理。本文的主要研究内容和创新点如下:1)基因功能预测问题事实上是一个多示例多标签问题,在本文中使用机器学习的方法对基于多示例多标签对象进行探讨,旨在对未知的基因功能进行注释。本文将层次聚类与多标签学习框架相结合,并提出一个基于基因本体层次结构的多标签层次聚类算法框架。本文将多示例多标签的问题转化为相对简单的单示例多标签问题。这个算法依据的是基因表达之间的相关性,并依据基因之间的功能类的最大化相关性对相应的聚类方法进行补充,并构建有相似基因功能的基因为多示例数据集。最后,对提出算法的有效性能进行验证,本文在三个酵母表达数据集中进行验证,先通过利用基于基因本体层次的多示例层次聚类方法把多示例多标签的基因功能预测问题进行转换,将其退化成单示例多标签问题,然后再利用多标签K近邻算法(MLKNN)或多标签支持向量机算法(MLSVM)进行建模和功能预测。从实验结果可以发现,在基因功能预测问题退化成单示例多标签的问题中,提出的算法能较好的维持着基因之间关系的相关性不变,并且其具有较好的性能。2)特征选择事实上是一种降维技术,是针对高维数据进行的一种必要的数据预处理,其目的是在高维数据的全特征集中选择尽可能少的特征子集来表达特征全集。在基因表达谱数据分析领域,由于基因表达谱数据具有维数(特征)非常多,而样本又非常少的特点,对于具有这种特点数据集的数据挖掘分析任务极容易造成维数灾难,因此对于基因表达谱数据的分析,特征选择技术几乎成了必需的数据预处理步骤。因此有个专业名词叫做特征基因选择,表示的就是在基因表达谱数据分析中应用特征选择方法。本文提出了一种新的方法用于对基因表达数据进行特征基因选择,该方法叫做最大判别局部边缘的半监督方法,简称为SMLM。该方法利用局部的结构构造了一个局部最近邻图,并通过权衡两个数据点之间的边缘将该信息划分为类内和类间的局部最近邻图。为验证提出算法的性能,在四个基因表达谱数据集上进行分类验证,实验结果表明SMLM具有较好的稳定性和分类精度。3)设计了miRNA-疾病关联预测(IMC-MDA)的归纳矩阵完成模型。对潜在的miRNA-疾病关联预测的研究将有助于我们了解疾病的发病机制并促进疾病的治疗,然而使用生物实验验证来鉴定与疾病相关的miRNA是费时费力的,而且没有针对性。针对已有的关于预测疾病与miRNA的计算模型存在的不足,比如准确性还不理想,而且模型还需要负样本,因此目前迫切的需要简单而有效的用于预测疾病相关的miRNA的新计算模型。在本文中设计了一种miRNA和疾病关联预测的归纳矩阵完成模型,简称为IMC-MDA。在IMC-MDA的模型中,将已知的miRNA-疾病关联和整合的miRNA相似性和疾病相似性组合以计算每个miRNA-疾病对的预测分数。基于LOOCV,IMCMDA的AUC为0.8034,表现出比以前的方法更好的性能。此外,实验分别证实了五种主要人类疾病的预测疾病相关miRNA:结肠肿瘤,肾肿瘤,淋巴瘤,乳腺肿瘤和食道肿瘤。
其他文献
行业用语是汉语惯用语来源的途径之一,但并不是主要途径,只占总数的6.52%。在量化分析这部分惯用语的行业分布情况、结构类型、情状色彩及其在语义抽象过程中对原义素的主要
目的:探讨超声测量锁骨下静脉直径(subclavian vein diameter,dSCV)及塌陷指数(collapsible index,CI)对剖宫产产妇腰麻后低血压的预测价值;麻醉前锁骨下静脉塌陷指数(subclavian vein collapsible index,SCV-CI)指导液体输注对剖宫产产妇及胎儿的影响。方法:第一部分,纳入112例择期剖宫产产妇,年龄2040岁,孕3742
民生项目监督特派组的成立,使民生项目得到有效监督,惠民资金的走向变得透明公开,各项惠民政策不折不扣得到落实。
宏观结构是词典编纂的基础,决定着词典的总体编排框架。文章以现代双语专科词典编纂理论为基础,分析了《汉英英汉武术词典》的宏观结构。指出篇幅体系、分类编排和多维检索构
近距离放射治疗是治疗癌症的一种有效的手段,是现代放射治疗的重要组成部分。它在国外研究和应用较多,在放射治疗中应用约占15%,而国内在应用和研究上还存在差距。本文介绍了近距离
重奏协奏曲体裁曲目多出现在巴洛克时期,或者古典时期。而在浪漫时期,重奏协奏曲体裁较为少见,遂称为稀世珍宝。勃拉姆斯的《A小调小提琴大提琴双重协奏曲》就是一部经典的浪
“4G可以用了!”车站的广告牌、手中的报纸,都在告诉我们4G时代的来临。但普通用户大都不清楚4G到底是什么样的高科技,只知道它比3G多了一个G,只知道它很快,会让通讯更方便。到底
"亲,帮忙点个赞吧,26个赞换浪漫海南五天四夜游。"天下真的有这样免费的午餐么?事实上,"集赞营销"商家有的是真心实意,有的却纯粹是为了赚噱头,忽悠消费者。如今微信眼下不仅仅是
教学话语是教师向学生传授知识的必要工具,影响着教学质量,提升教师教学话语素养显得尤为重要,而教师如何使话语表达产生最好的教学效果则是问题的核心所在。由古至今,教学语