面向基因表达微阵列数据的高效特征选择和分类方法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:gyk0088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术诞生以来,催生出了大量的基因表达微阵列数据,其中隐藏着非常有价值的生物学信息。分析这些数据,挖掘其中潜藏的生物学信息,为复杂疾病的诊断和治疗带来了新的可能性。样本个数少、维度高和类别不平衡是基因表达微阵列数据的主要特点,也是对现有数据挖掘技术构成的最大挑战。基于现有方法,本文致力于更高效的特征选择算法研究,同时尝试解决类别不平衡问题以及寻找更适合基因表达微阵列数据的分类算法。使用6个本领域最频繁被使用的数据集作为实验数据,使用分类准确率、马修相关系数和ROC曲线底部面积作为评价标准,结合分层的5折交叉验证策略对本文提出的方法进行实验验证。主要工作和结论如下:(1)提出了一种称为RVOS的数据采样方法来尝试解决基因表达微阵列数据的类别不平衡问题。实验结果表明,经过平衡后的数据集获得了相当或者更好的分类结果。由于平衡后的数据集各类样本分布更加均衡,因此分类结果更加可信。(2)改进递归特征消除方法,提出了一种称为VSSRFE的步长可变的递归特征消除策略。本文用SVM-VSSRFE和SVM-RFE分别作为特征选择器做特征选择。实验结果显示,SVM-VSSRFE的时间消耗获得了数百倍的减少;在3个数据上获得了更好的分类效果,同时在另外3个数据集上分类效果有一定程度的下降。(3)引入一种被称为LLSVM的大尺度线性支持向量机,更高效地实现特征选择。这是经典支持向量机的一种更高效的实现,专门用来处理类似于基因表达微阵列数据的高维线性分类问题。实验结果表明,在保证特征选择质量的前提下,LLSVM在5个数据集上所耗费的时间都远远少于经典的支持向量机,在部分数据集上甚至有超过10倍的缩减。(4)深入研究了不同分类方法对分类结果的影响。在6个数据集上的实验结果证明,支持向量机并不总是最好的选择,L2正则化的逻辑回归可以获得相当或更好的结果。
其他文献
患儿,男,2岁.以咳嗽、闷气一周为主诉就诊.查:体温正常,一般情况好,皮肤黏膜淋巴结正常,头颅、五官正常,耳鼻无异常分泌物,咽充血,两肺呼吸音粗,双下肺可闻中小水泡音,心㈠,
【摘要】高职院校学生创新创业教育处于优势地位。开展高职学生创新创业教育和高职学生自主就业工作,不仅是深化高职教育改革,而且要提升高职教育教育问题服务社会能力,并改变经济生产。方法的经济问题,促进产业结构升级和科技成果转化,是保障和改善民生,创业就业促进效应的战略问题,创新导向的建设国家,推动国家创新。伊春职业学院旨在打造高职教育。在学生创新创业教育体系的基础上,对学生的创新创业工作进行了有益的探索
我院自1995年6月至2001年6月,对转移性骨肿瘤而引起骨痛的80例病人采用氯屈膦酸二钠(骨膦)加放疗进行治疗,并与单纯行放疗组进行对照,现报告如下.
在我国,随着医学事业的发展和人民生活水平的普遍提高,人口平均预期寿命已接近70岁,因此老年病人的手术麻醉问题已成为临床工作中的重要课题.为保证手术的成功,应熟悉老年人
水稻(Oryza sativa L.)是30亿人口的主要粮食作物,稻田是温室气体(GHG)排放和环境氮素损失的重要来源。稻渔共生系统可以提高农业生产力,提高现有资源的利用率,但对水、土壤质量
重症急性胆管炎(AOSC或ACST)即急性梗阻性化脓性胆管炎,居胆道疾患死亡病因首位,起病急剧,迅速恶化,如不及时诊治,预后凶险.我院自1990年9月至2002年5月共收治AOSC14例,现报
混凝土属于现代建筑行业最常用的建筑材料之一。混凝土的质量影响其结构的安全性能,为了更好的保证混凝土结构的安全性,应该重视每一个细节上的把握。加强对混凝土的质量监控