微阵列基因表达数据的特征分析方法研究

来源 :合肥工业大学 | 被引量 : 6次 | 上传用户:gaobaobao127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术的快速发展使得同时测量成千上万个基因的表达情况成为可能,并被广泛地用于研究不同癌症和肿瘤的基因表达模式,为从分子水平研究疾病机理以及疾病诊断和预后提供了一种强有力的手段。由于微阵列技术的特点和现有技术水平的局限性,获得的微阵列数据体现出“高维度,小样本,高噪声”的特点,这些数据往往包含大量的无关基因和冗余基因,对微阵列基因表达数据分析提出了严峻的挑战。如何从中选出具有判别能力的信息基因,研究基因与癌症之间的关系,对于深入发现和理解疾病机理以及提高疾病的临床诊断准确率具有重要作用。在微阵列技术中,经常将基因作为特征来表示。本文以微阵列数据为应用靶点,重点在基因选择方法上开展深入的研究工作,取得的主要研究成果包括以下几个方面:  (1)基于封装的特征选择方法使用分类器作为评价候选特征质量的效用函数,因此具有较大的时间花费。在使用K近邻分类器时,指出大量重复地计算样本间的距离是造成较高时间复杂度的一个重要原因,然后提出构建逻辑存储结构分类距离矩阵用于显式地存储、计算和更新样本间的特征距离,以改善特征选择的时间性能。实验结果表明,所提出的方法不仅能够获得高质量的特征子集,而且能够极大地降低特征选择的时间成本。最后,通过时间和空间复杂度分析说明所提出算法的高效性和可行性。  (2)针对基于封装的特征选择方法在特征选择过程中需要执行大量的封装评价以及花费较大时间代价的问题,指出造成该问题的一个重要原因是封装方法在执行过程不能显式地识别冗余特征并将其从候选特征集合中删除。在此基础上,提出将马尔科夫毯技术嵌入到基于封装的特征选择过程中用于冗余特征的识别和删除,以减少需要执行的封装评价次数。最后,通过理论分析和实验验证所提出算法的有效性和效率。实验结果表明,所提出的方法能够保证获得的高质量的特征子集,同时能够显著地减少需要执行的封装评价次数,提高时间性能。  (3)针对基于偏最小二乘法的递归特征消去方法在高维数据上进行特征选择具有较高时间复杂度的问题,指出在每次迭代过程中只从候选特征集中删除一个最不重要的特征是造成该问题的主要原因。为改善该问题,受冶金退火中温度衰减过程的启发,提出两种基于动态特征消去策略的特征选择算法PLS-RFE-SA和PLS-RFE-SQRT。这两个算法的核心思想是在起始阶段从候选特征集中删除大量的不重要特征,并且随着迭代的进行,每次删除的特征个数逐渐减少,直至完成对所有的特征的排序。实验结果表明,PLS-RFE-SA和PLS-RFE-SQRT不仅能够获得高质量的特征子集,而且能够显著地改善算法的时间性能;关于特征子集一致性的实验结果表明,与PLS-RFE-SQRT相比,PLS-RFE-SA能够获得具有更好一致性的特征子集。最后,通过理论分析论述所提出的两个算法在时间性能上的优越性。  (4)针对高维小样本数据容易导致“过拟合”的问题,提出一种混合的特征选择算法mRMR-HS,该算法能够综合利用基于过滤方法的低时间复杂度和基于封装方法的高分类准确率的优点。所提出的算法包括两个阶段:第一个阶段是无关特征的删除,使用最小冗余最大相关算法mRMR从原始特征空间中选出一部分与目标类别具有较大相关性的特征;第二个阶段是候选特征子集寻优,利用具有全局启发式搜索功能的和声搜索算法HS产生候选特征子集,通过封装的方式评价这些候选特征的质量,并返回能够获得最优适应值的特征子集。实验结果表明,与mRMR相比,mRMR-HS能够获得更好的分类准确率;与HS相比,mRMR-HS具有较快的收敛速率,能够获得更紧凑的特征子集。
其他文献
课表安排问题实质上就是要求将学校开设的所有课程,在满足一定的约束条件下,合理地安排到有限的课时和教室资源上。课表安排工作是教学活动中必不可少的一个重要环节,对提高
无线传感器网络由许多具有无线通信能力的低成本、密集部署的传感器节点组成,由于无线传感器网络具有组网快捷、灵活,且不受有线网络约束的优点,可广泛用于紧急搜索、灾难救助、
语音通信已经成为现代社会生活的重要组成部分,然而人们在语音通信过程中不可避免地会受到来自周围环境的、传输媒介引入的、通信设备内部的噪声、乃至其它讲话者的干扰,这些干
工作流管理系统是实现工作流自动化执行和流程定义的平台,它实现了业务逻辑与执行活动的分离,支持业务流程的分析和规范化定义以及业务单元的灵活组装。工作流技术可以降低复杂
本文是针对计算机辅助几何设计与制造(CAGD/CAM)中的曲线曲面造型问题,运用一种基于曲线融合的思想所进行的基础理论和应用的全面总结。其内容包括:基于融合的样条曲线造型方
遗传算法是一种十分优秀的解搜索算法。它有着天生的并行特性,因而并行遗传算法通常被设计应用于计算量大的理论计算和工程设计等诸多方面。但并行程序设计向来都较为复杂,并
随着云计算技术的发展和对云计算技术应用的不断增长,云计算系统的规模也随之增长,从而造成了云计算系统分布于多个数据中心的情况。云存储子系统是云计算系统的重要组成部分
学位
大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)是语音识别研究的重点和难点之一,其涉及了声学模型、语言模型、搜索算法等多方面的知识和技
随着信息时代的到来,通过网络传递信息成为生活中一种必不可少的通信手段,在进行网络通信的过程中,服务器系统提供了有力的支持。当今的网络系统是以IP协议为基础,以服务器系