基于不平衡基因数据的2D空间基因选择算法研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:gyf2033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的快速发展和在生物医学领域的广泛应用,尤其是DNA芯片技术的出现,为癌症的分类诊断及其形成机制的研究和治疗提供了新的思路,同时也致使大量含有高维特征信息的基因表达数据涌现。特征选择作为一种高维数据的维数约减方法,可以有效剔除冗余和不相关基因,保留数量规模小且与分类任务相关的关键基因,不但能降低算法时间复杂度,减少维数灾难,同时可以提高分类模型对癌症的识别准确率,在癌症基因表达数据的分析研究中至关重要,具有实际性的研究意义。微阵列基因表达数据集具有高维、小样本的特性,且包含大量和特定的疾病不相干和冗余基因,若干个关键致病基因可以导致样本间的差异,这些特点使得传统的特征选择算法面临前所未有的挑战。除此之外,类别不平衡性也是癌症基因数据集的一个重要特点。类别不平衡数据的处理办法主要包括代价敏感学习、样本重采样、特征选择和集成学习等方法。在对癌症基因表达数据集的实际处理中,单独针对高维小样本基因数据或者不平衡基因数据的特征选择算法面临性能上的瓶颈,如何从高维小样本且类别分布不平衡的原始基因数据中选择出有效可靠的基因子集,是基于微阵列基因数据对癌症疾病进行诊断分析亟待解决的问题。因此,本文针对癌症基因表达数据集的特性和存在问题,从特征选择和基因子集评价的角度对不平衡癌症基因表达数据的分类问题进行研究。本文的主要工作有:(1)针对二类不平衡特征选择算法 ARCO(AUC and rank correlation coefficient optimization)和适用于多类不平衡特征选择算法MAUCD(Using MAUC as the relevance metric to rank features directly)、MDFS(MAUC decomposition based feature selection method)存在的缺陷:改进Pearson相关系数并度量特征冗余,同时对特征冗余性和相关性度量范围进行归一化,提出APCO(AUC and improved pearson correlation coefficient optimization)算法以克服 ARCO 的不足;提出改进的 Pearson相关系数,使其适用于度量多类数据特征间冗余,得到基于mRMR(Maximal relevance-minimal redundancy)框架的 MAUCP(MAUC and improved pearson correlation coefficient optimization)和 MDFSP(MDFS and improved pearson correlation coefficient optimization)算法,并且克服了 MDFS算法易选择到局部最优特征子集的问题。采用 SVM(Support vector machine),NB(Naive bayes)和 KNN(K-nearest neighbor)为分类器,在7个二类和3个多类不平衡基因数据集上验证算法的有效性。检验结果揭示,本文提出的算法优于相应的原始算法,也优于其它经典特征选择方法。(2)为了从高维小样本且类别分布非平衡基因数据集中获得关键区分基因,提出F2准则、归一化互信息SU(Symmetrical uncertainty)、特征权重归一化方法及动态权值 SFS(Sequential forward search)和 SFFS(Sequential forward floating search)搜索策略。为了加快基因选择过程,提出基因预选择方法,以减少备选基因子集规模。最后依据最大相关最小冗余框架和最大化AUC思想,提出多种适用于不平衡基因数据的基因选择方法。在3个不平衡基因数据集的实验测试表明,提出的基因选择算法均能选择到规模小、性能优的基因子集,充分证明了算法思想的正确性。(3)针对基因选择过程中基因间相关和冗余关系,提出一种新颖的快速基因选择算法 FSDI(Feature selection based on discernibility and independence of the feature)。该算法定义了基因辨识度和独立性的概念,以基因辨识度度量基因的类间区分能力,以基因独立性度量基因间的相关关系。为了快速自动确定被选基因子集,以特征独立性为纵坐标,辨识度为横坐标,构造特征独立性与辨识度2D空间,以特征独立性与辨识度在2D空间所围矩形面积度量相应特征重要程度。首先采用K-means方法对数据基因聚类,依据基因权重从各类簇选取一定量的代表基因,全部类簇的代表基因构成预选特征子集,然后从运用FSDI算法从预选基因子集中选取最终基因子集。5个基因表达数据集的验证表明:本文提出的FSDI方法能快速获得类别识别能力很好的关键基因,基于关键基因的KNN和SVM分类器有着较好的类识别能力。
其他文献
染料敏化太阳能电池(DSSC)因其低成本、低污染、高效率而受到关注。目前,DSSC常用的染料包括N3和N719,经其敏化后的光阳极主要吸收可见光,而太阳光中占比例较大的红外光和紫
D-葡萄糖(D-glucose)作为信号分子参与多种生物过程的调节。已有研究显示,D-glucose信号转导在植物种子萌发、幼苗发育、光合作用、氮代谢、胁迫响应、开花和衰老死亡等过程
随着生态文明建设的不断推进,绿色发展、循环发展、低碳发展成为社会共识。国家层面环保政策的不断出台,让环保产业迎来了千载难逢的黄金期。但环保行业投资高,回收期长,今年
神经肌肉接头是运动神经元与骨骼肌形成的化学突触,支配着多种骨骼肌的运动。膈肌NMJ(phrenic neuromuscular junction)突触前膜蛋白是在颈段脊髓前角运动神经元合成后,顺轴
目的:通过检测IgA肾病不同程度肾纤维化患者肾组织IL37、STAT3的表达,初步探讨IL37在肾组织的表达情况及其与肾间质纤维化程度以及临床特征之间的相关关系。方法:根据肾纤维
“入世”和“出世”是中国古代知识分子的重要人生选择。在漫长的历史发展中,学者倾向于将以天下为己任的儒家思想定义为入世思想,将倡导自然无为的道家思想定义为出世思想。无论“入世”还是“出世”,其目的实际都是相同的,都是为了在乱世中寻求一个可行的治世之道,将个人理想与社会现实相结合。本文从溯源先秦儒道治世之道开始,对先秦儒道思想中两个看似相互对立的方向——“入世”和“出世”及其最终的目的“治世”进行了研
在秀丽隐杆线虫中,有两类重要的GABA依赖的D型运动神经元,DD和VD运动神经元。unc-30是D型运动神经元发育过程中的主要基因,作为转录因子发挥作用,UNC-55是另一个调控DD/VD分
诱导多能干细胞是一类与ES细胞有着相似特性的细胞,它是由体细胞中导入四个因子SKOM(Sox2,Klf4,Oct4,c-Myc)后重编程而来的,在再生医学和新兴的细胞治疗方面有着无限的应用前
研究背景遗忘型轻度认知障碍(amnestic mild cognitive impairment,a MCI)是以记忆力损害为主要表现的一种认知缺陷状态,是介于正常衰老和阿尔兹海默病(Alzheimer’s disease,AD)之间的一类症候群,a MCI患者转化为AD的风险极高,有证据表明每年大约有12%的a MCI患者进展为AD。因此,寻找能够预测a MCI向AD转化的风险因素对于AD的早期
函数逼近论是一门内容丰富,实践性很强的数学学科,与应用数学,计算数学等联系密切,相互推动发展.算子逼近论作为函数逼近论的一个重要分支,在十九世纪五十年代,由于泛函分析