基于信息融合的特征基因选择方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:kangta98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通常,特征基因选择的目标是找到紧凑的特征子集用以构造一个模式分类器,以提高分类的性能。特征基因选择不仅能为我们找到与疾病相关的重要基因,提高肿瘤分类能力,同时也降低了临床诊断肿瘤类型的成本。一种有效的特征基因选择方法不仅能产生具有较好分类性能的特征基因,而且该方法应具有较好的鲁棒性。基因表达芯片数据的显著特点是样本少、维度高。据相关研究证实,这种数据更容易造成特征选择方法的鲁棒性差。然而,现有的特征选择方法大多只关注算法的分类准确率,而不重视算法的鲁棒性。本文的主要研究工作如下:提出一种基于先验信息融合的特征基因选择模型。据相关研究证实当抽取的特征基因数量较少时,其分类性能较高,而当特征基因数目超过一定阈值时,分类性能反而降低,由此推测基因表达谱中的信息基因数量较少时就可以获得很高的分类性能。由此我们首先进行噪声处理以及无关基因剔除,降低特征基因的搜索空间,然后采用一种启发式宽度优先搜索算法以用于特征基因精选;同时,利用多重检验过程(MTP)对先验信息进行融合,充分利用临床可靠信息,以进一步提高肿瘤亚型分类的准确度。实验证明,该模型所选择的特征基因数目较少,且具有较好的分类性能。提出一种基于多准则融合的特征基因选择模型。基因表达谱数据具有高维、样本少的特点,容易造成特征基因选择算法鲁棒性较差,主要表现在少数样本的改变就会造成特征子集结果不同,甚至不同的特征选择方法对于同一样本数据可能产生差别较大的解集,这样容易使得研究人员不知该如何选择,从而大大降低临床诊断的可信度。在本文中,我们利用不同基本过滤准则对于样本数据分布刻画的侧重点不同的特性,对各个准则排序的基因进行打分排序,然后进行融合;同时,为了避免因为多特征融合难以刻画样本数据分布的复杂性而降低分类准确率,我们提出在多准则融合的基础上进行先验信息打分融合,然后采用基于前向-后向结合的折半基因淘汰法进行特征基因选择。实验证明该方法有效保留了因为单个准则的偏袒性而被错误淘汰的有效特征基因,该方法与其他方法的分类准确率相似,同时具有更好的鲁棒性。
其他文献
人脸表情识别是人机交互领域中的一个重要课题,具有重要的理论研究意义和应用前景。实现计算机对人脸表情识别将增强计算机的智能化和人性化以及推动心理学等学科的发展,同时
社会经济的快速发展带来了全世界范围内的汽车保有量的迅速增加,同时伴随而来的还有不断增加的道路交通事故。让各国苦恼的就是在这些交通事故中,恶性交通事故发生率总是居高
作为一种新兴的商业计算模型,云计算实现了计算能力、存储空间和信息服务等像水、电、煤气一样可以由用户按需取用,灵活计费。云计算通过运用虚拟化技术,实现了对大量物理资源的
随着自然语言处理的研究在近年来的不断深入,机器翻译的发展也得到了长足的进步。但对于小语种的翻译仍很少见,本文以研究统计机器翻译理论为出发点,针对维语-汉语之间的统计机
网络技术的发展给互联网上大量传递的数字作品的安全性带来了极大威胁。加密技术的产生与发展在一段时期内对数字作品起到了很好的保护作用,但是由于经过加密的文件其内容明显
近年来,互联网尤其是移动互联网规模和技术发展迅猛,智能移动设备如智能手机、平板电脑等大量普及,智能手机用户数量剧增。移动应用作为智能手机的重要组成部分,改变了用户的生活
无线电频谱资源是一个国家重要的战略资源,随着对无线电频谱资源的需要增大,能够被普通用户使用的频谱资源越来越短缺。动态频谱接入(DSA)作为认知无线电的一种重要应用,它能
装箱问题是一个经典的组合优化问题。简单地说,装箱问题就是将若干不同尺寸的物体互不重叠地放入有一定容量的箱子中以达到某种最佳目标。装箱问题被广泛应用于计算机科学领
传统的无线传感器网络(Wireless Sensor Network, WSN)只是传输一些简单的数据,而无线多媒体传感器网络(Wireless Multimedia Sensor Networks, WMSNs)的传感器节点能够感知音
电子商务的蓬勃发展,使得互联网+思维模式日益风靡,现在越来越多的商家也推出了自己的电子商务销售平台。经过对国内外图书电子商务平台发展近况的深入分析后,本文设计和实现