基于肿瘤基因表达谱数据的分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:redsouler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤具有多种亚型,正确的肿瘤分类可以使医生对肿瘤患者制定最佳的治疗方案,以达到最好的治疗效果。如今,如何正确地识别肿瘤类别已成为当前重要的研究课题之一。目前,大部份传统的分类方法都是基于统计学原理,这些方法普遍存在过拟合的问题,虽然分类准确度很高,但是对新数据分类可能存在偏差。基于稀疏表示和协同表示的分类方法特别适合具有高维小样本特点的肿瘤数据集,且不存在过拟合问题。然而,针对肿瘤基因表达谱数据的高维小样本和非线性等特点,新方法亟需不断改进使其更适应于肿瘤数据特征以得到更好的分类准确度。本文的研究主要是基于新方法,主要工作如下:提出了基于元样本的核稀疏表示分类方法。该方法可分为三步:1、使用奇异值分解方法从训练样本中提取元样本;2、新的数据通过线性核函数映射到高维特征空间;3、计算得到稀疏编码系数以及通过重构残差求得测试样本类别。同时使用基因选择方法进行降维。通过设计丰富的对比实验和选择经典的基于稀疏表示的方法比较,最终证明此方法的有效性。提出了一种新的基于核化凸包的协同表示方法。把测试样本模拟成凸包,然后使用训练样本集协同的表示这个凸包。定义了样本到集合的距离,其中样本和训练样本集合均模拟为凸包。要使其得到一个稳定的解,以及解决肿瘤基因表达谱数据非线性的特点,通过使用核函数把数据映射到高维空间使其近似线性可分,这样就成功的解决了上述两个问题。对于高维小样本的肿瘤数据特点,使用基因选择的方法对其降维。选用11个经典的分类方法在11个公共的肿瘤数据集上作对比实验,结果充分证明本文提出的方法不仅具有较高的分类准确度而且复杂度更低。
其他文献
朗读,是把已经成了书面的文字、文章还原成语音形式,朗读者通过对美文的朗读,来宣泄自我的思想感倩。了解汉语的一些语音特点对学好普通话的朗读是很有帮助的。本文从汉语的
<正> 网络时代的到来,对会计信息系统所处的社会经济环境产生了深刻影响,使财务会计突破了传统模式下时间和空间的束缚。笔者拟就网络环境下财务会计的特点及面临的问题进行
自2008年开始,我国实行企业所得税实行法人所得税制。这也使得如何在总分机构所在地政府间合理分配税负,成为企业,特别是跨地区经营企业必然要解决的问题。
【背景】HIV/AIDS是当今国际社会最为严重的健康问题之一,慢性乙肝是我国发病率较高的一种传染性疾病,两者都严重威胁着人民的生活健康水平。抗逆转录病毒治疗(ART)是治疗两
群众路线讲的是党与群众的关系问题。它伴随着党的发展而不断成熟、完善。我们党通过贯彻群众路线,先后取得了新民主主义革命、社会主义革命和社会主义建设的胜利,但也有过未
简要介绍了两种智能化自适应模式识别方法预测工作面顶板来压的实施途径,即用灰色等维拓朴预测方法对来压作近、中期预报;采用人工神经网络方法实时预报顶板来压特征。针对煤矿
一、制造视觉幻象的历程从表面上看,西方绘画史是一个流动的历史。时代的更迭,历史的流变,艺术家的换代,使不同时期的艺术呈现出不同的面貌。但就绘画本体而言,其发展则有自
近年来的建设安全形势严峻,尤其是地下工程建设领域的安全问题比较突出。安全风险主要来源于人、物和和环境,地下工程建设安全风险影响主体主要包括政府行政主管部门、建设单
<正>加拿大学者理查德.马蒂西克(Richard Mattessich)教授所著的《会计研究二百年:国际视角下的人物、思想与成就》一书的第三章,介绍了20世纪上半叶德国会计研究的主要成果
寻找优势诊断抗原,一直是血吸虫病诊断研究中的热点。血吸虫循环抗原因其具有反映活动性感染情况、评估虫负荷和疗效考核价值等特点,一直倍受人们关注,寻找高敏感性和高特异