基于基因表达谱的数据挖掘方法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:tdsl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于基因表达谱在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文将数据挖掘技术应用在基因表达谱分类分析领域,对特征提取及肿瘤亚型识别问题进行了研究,取得如下研究成果:提出了基于神经网络和线性回归的肿瘤亚型分类方法。针对急性白血病数据集,设计了三类信噪比指标,采用小波分析及线性回归方法提取候选特征基因,基于BP神经网络构建分类器,依据独立测试结果确定特征基因。针对该数据集提取出5个特征基因,其独立测试准确率达到91%。本文同时使用决策树方法对该特征子集测试,识别率达86%。提出了基于GSNR指标的特征基因选取及肿瘤亚型识别方法。将数据挖掘方法Gini指数与传统指标“信噪比”(SNR)相结合,构建综合指标GSNR剔除无关基因;采用BP神经网络设计分类器;使用SM算法确定特征基因。针对急性白血病数据集,按三类肿瘤亚型分类,提取出8个特征基因,独立测试准确度达97%。实验结果表明GSNR指标具有良好的降噪能力和可伸缩性。设计实现了基于GB指标的基因表达谱分类方法。将Gini指数与类加权Bhattacharyya距离相结合,构建GB指标剔除无关基因;基于支持向量机构建分类器;通过“两两冗余”后,依据后向搜索算法选定最优特征子集。针对SRBCT数据集提取出7个特征基因,采用SVM分类器测试准确识别了数据集中所有样本,同时采用ANN、CBA等方法对特征子集进行测试,取得满意的结果。该特征子集分类性能优良,特征数量精简,优于同类实验。
其他文献
随着城市化进程的加快,城市人口的增加,城市绿地对改善城市生态环境、促进城市经济持续发展具有越来越重要的作用。城市绿地生态环境规划决策支持系统可以对城市现有绿地的结构
随着信息化技术的快速发展和现代企业规模的不断扩大,大量IT应用系统在企业内部也随之产生,然而这些异构的、独立的、封闭的系统造成彼此之间很难集成,导致系统中出现信息孤岛,难
Internet的出现和快速发展,现已成为目前世界上最大的信息资源库。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎虽然在一定程度上满
网络管理技术是用来解决网络失效、性能欠缺、配置不当、安全性差等问题的。当前网络管理系统正在逐步向分布式和智能化发展,而移动Agent技术作为一种新型的智能分布式技术,正
面对日益庞大的数据资源,数据挖掘技术应运而生。它是一种致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是当前人工智能领域和数据库领域相结合的热点研究课题。概念格
目前,在软件开发领域极其推崇的是面向对象程序设计方法,因为它具有确保软件质量、可重用性、灵活性、可维护性、可扩展性的技术,所以得到广泛的应用。而数据库的应用大多数企业
采样是遥感图像监督分类的基础,样本的质量会直接影响遥感图像分类结果的质量,因此对样本进行质量评价,从而得到关于样本的不确定性描述是非常必要的,目前对于样本的评价大多是基于统计的,通常,样本点是凭先验知识和经验获得的。在相同采样模式和样本量的前提下,一组作为训练分类器的样本数据集的“真实效用”如何,只能经过分类之后才能进行相应的验证和评价,即在这组样本数据集中,能够全面体现光谱特征,保证分类质量和效
康托尔于1874年创立了普通集合概念。在康托尔(Cantor)集合理论中,集合中任一元素,要么属于一个集合,要么不属于,二者必居其一,绝不模棱两可。也就是说,康托尔的集合论只能将
计算机支持的协同工作(Computer Supported Cooperative Work,CSCW)所研究的是一个群体在计算机支持的环境中如何协同工作完成共同的任务,它是一个多学科交叉的研究领域,需要计
随着科学技术进入一个多学科相互交叉、相互渗透、相互影响的时代,源于模拟某一自然现象或过程并且具有自组织、自学习、自适应等特征的神经网络、细胞自动机和进化计算等研究