论文部分内容阅读
利用先进的数据挖掘方法分析研究基因和疾病之间的关系有助于发现疾病的发生机制,从而为疾病的诊断和个性化治疗提供科学依据。但是,基因相关信息的数据通常具有高维小样本、高噪声、高冗余的特点,这使得很多优秀的数据挖掘和机器学习方法在处理分析基因与疾病相关数据时效果较差。因此,需要针对具体基因和疾病的相关数据的特点,设计合适的算法模型来进行数据分析。在本论文中,针对不同基因与疾病相关数据的特点,从基因功能预测,特征基因选择和miRNA和疾病的关系三个方面对基因与疾病的关系进行了分析研究。提出了一系列相应的数据挖掘方法对其进行处理。本文的主要研究内容和创新点如下:1)基因功能预测问题事实上是一个多示例多标签问题,在本文中使用机器学习的方法对基于多示例多标签对象进行探讨,旨在对未知的基因功能进行注释。本文将层次聚类与多标签学习框架相结合,并提出一个基于基因本体层次结构的多标签层次聚类算法框架。本文将多示例多标签的问题转化为相对简单的单示例多标签问题。这个算法依据的是基因表达之间的相关性,并依据基因之间的功能类的最大化相关性对相应的聚类方法进行补充,并构建有相似基因功能的基因为多示例数据集。最后,对提出算法的有效性能进行验证,本文在三个酵母表达数据集中进行验证,先通过利用基于基因本体层次的多示例层次聚类方法把多示例多标签的基因功能预测问题进行转换,将其退化成单示例多标签问题,然后再利用多标签K近邻算法(MLKNN)或多标签支持向量机算法(MLSVM)进行建模和功能预测。从实验结果可以发现,在基因功能预测问题退化成单示例多标签的问题中,提出的算法能较好的维持着基因之间关系的相关性不变,并且其具有较好的性能。2)特征选择事实上是一种降维技术,是针对高维数据进行的一种必要的数据预处理,其目的是在高维数据的全特征集中选择尽可能少的特征子集来表达特征全集。在基因表达谱数据分析领域,由于基因表达谱数据具有维数(特征)非常多,而样本又非常少的特点,对于具有这种特点数据集的数据挖掘分析任务极容易造成维数灾难,因此对于基因表达谱数据的分析,特征选择技术几乎成了必需的数据预处理步骤。因此有个专业名词叫做特征基因选择,表示的就是在基因表达谱数据分析中应用特征选择方法。本文提出了一种新的方法用于对基因表达数据进行特征基因选择,该方法叫做最大判别局部边缘的半监督方法,简称为SMLM。该方法利用局部的结构构造了一个局部最近邻图,并通过权衡两个数据点之间的边缘将该信息划分为类内和类间的局部最近邻图。为验证提出算法的性能,在四个基因表达谱数据集上进行分类验证,实验结果表明SMLM具有较好的稳定性和分类精度。3)设计了miRNA-疾病关联预测(IMC-MDA)的归纳矩阵完成模型。对潜在的miRNA-疾病关联预测的研究将有助于我们了解疾病的发病机制并促进疾病的治疗,然而使用生物实验验证来鉴定与疾病相关的miRNA是费时费力的,而且没有针对性。针对已有的关于预测疾病与miRNA的计算模型存在的不足,比如准确性还不理想,而且模型还需要负样本,因此目前迫切的需要简单而有效的用于预测疾病相关的miRNA的新计算模型。在本文中设计了一种miRNA和疾病关联预测的归纳矩阵完成模型,简称为IMC-MDA。在IMC-MDA的模型中,将已知的miRNA-疾病关联和整合的miRNA相似性和疾病相似性组合以计算每个miRNA-疾病对的预测分数。基于LOOCV,IMCMDA的AUC为0.8034,表现出比以前的方法更好的性能。此外,实验分别证实了五种主要人类疾病的预测疾病相关miRNA:结肠肿瘤,肾肿瘤,淋巴瘤,乳腺肿瘤和食道肿瘤。