基于稀疏表示的肿瘤分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:a4205685
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术同时可以检测成千上万个基因的动态表达水平,这些表达值构成了基因表达谱数据。肿瘤的基因表达谱具有高维小样本的特点,然而只有少量基因与肿瘤分类相关。由于冗余基因在增加时间复杂度的同时降低了分类精确度,因此需要从大量的基因中挑选出信息基因用于肿瘤分类。本文采用稀疏表示方法对肿瘤基因表达数据进行分析,主要研究工作如下:在稀疏表示的分类方法中,测试样本由所有的训练样本线性表示,通常需要假设编码残差服从高斯分布或拉普拉斯分布,然而在实际的肿瘤分类中这样的假设可能不能高效地描述编码残差,并且编码系数的稀疏性限制使得该分类模型时间复杂度比较高。本文提出了基于元样本的正则化鲁棒肿瘤分类模型,该分类方法是基于元样本聚类和正则化鲁棒编码方法的结合。首先利用奇异值分解方法从训练集中提取元样本,测试样本由所有的元样本线性表示。通过假设编码残差和编码系数相互独立并且服从相同的分布,采用最大后验估计解决编码问题。在本文中使用到了一个迭代的分配权重的正则化鲁棒编码方法,在迭代过程中,分配给产生较大残差的基因较小的权重,在下次迭代时把具有较小权重的基因过滤掉,从而减小离群值对最终求得的编码系数的影响。迭代结束后,利用元样本和求得的编码系数为子类重构测试样本并计算测试样本和重构测试样本间的残差,把测试样本分到产生最小重构残差的子类中。该分类模型具有较高的分类精确度并且相对较低的时间复杂度。基于稀疏表示的分类模型相比传统的分类方法避免了过拟合的问题。然而编码系数的稀疏性限制使得该类方法时间复杂度比较高。研究表明,训练样本的协作表示比系数的稀疏性限制对提高分类精确度更重要,而且在编码系数中,只有一部分系数才有比较大的值。因此本文提出了一种新的分类模型:基于近邻的协作表示肿瘤分类算法,命名为基于近邻样本正则化最小平方的协作表示肿瘤分类方法(KCRC_RLS)。本文所提出的分类模型首先利用k-近邻方法找到测试样本最相似的6)个近邻样本,用这6)个样本线性表示测试样本,求解编码系数,重构测试样本再进行分类,该算法和几种基于稀疏表示的分类方法相比可以得到更好的分类结果。
其他文献
煤岩作为煤层气藏的储层岩石有其特殊的性质。由于煤岩孔隙度小,渗透率低,煤岩两相流体系统的毛管压力和相对渗透率实验测量较为困难,而二者又是数值模拟和产量预测所必须的
临武碉楼目前为湘南地区乡土建筑中少有的一种“印式碉楼”建筑,其功能与形制皆符合学术界目前对“碉楼”的定义。同时,它也是当地人为防止福气走漏、保佑人财两旺的公共建筑
对研究区长2、长6的地层与构造,沉积与储层做了全面分析,研究区构造简单,平缓的西倾单斜上局部发育鼻状构造,长2储层属于三角洲平原沉积,分流河道发育,长6储层属于三角洲前缘
在我国,胃癌常见的恶性肿瘤之一,其发病率和死亡率均居各类恶性肿瘤的首位。胃癌的发生是一个多因素、多步骤的过程,涉及到多方面机制。研究表明TGFβ/Smads信号通路中任何一
由于网络的不断发展和进步,很多的技术都被研发出来,比如虚拟制造技术。虚拟制造技术运用在当今社会的很多方面,很多企业为了促进产业的发展,都运用了这项技术。在航空航天事
利用遥感数据提取围岩蚀变信息并进行勘探靶区圈定经过了几十年的发展,逐渐成为地质填图和找矿的重要手段之一。TERRA卫星上所携带的高级星载热发射反射辐射计(ASTER)其6个短
橡胶是我国的战略物资。因具有胶乳产量高、质量优、经济寿命长和采胶容易等特点,巴西橡胶树(Hevea basiliensis)已成为全世界天然橡胶的唯一商业来源。因此对巴西橡胶树进行
肿瘤坏死因子是一种促炎症细胞因子,具有多种生物学效应。TNF-α以26k Dα的跨膜型结构tmTNF-α(trαnsmembrαne TNF-α)表达于细胞膜上,在金属基质剪切酶(TACE)的作用下,可
随机共振是一种利用噪声增强信号能量从而实现微弱信号检测的新方法,目前对它的研究大多数停留在理论仿真阶段,将其用于工程信号的检测还不多。如何实现随机共振的产生、增强
Mg-Zn-Ca非晶合金因其出色的生物降解性能在医用可降解金属材料领域受到了广泛关注。与常见Mg基非晶合金类似,Mg-Zn-Ca非晶合金在室温下塑性变形能力较差,这严重限制了其在生