肿瘤信息基因选择与分类方法研究

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:MK654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是多基因与环境共同作用的结果,大规模基因表达谱技术的出现及其飞速发展为肿瘤研究提供了一种全新的技术平台。基于基因表达谱的数据挖掘对致病基因发现、肿瘤临床诊断、药物疗效判断和发病机理阐明等意义重大。肿瘤基因表达谱数据多具特征维数高、样本小或相对小、样本背景差异大、存在批次效应等非随机噪声、冗余度高、非线性、基因间存在互作效应等特点,传统的统计方法和模式识别方法应用受限。本文针对基因表达数据特点,围绕信息基因选择方法和分类器构建展开研究,主要结果如下:(1)基于支持向量机发展了高维特征选择新方法二元矩阵重排过滤器BMSF (Binary Matrix Shift Filter)。大多数信息基因选择方法只考虑单个基因或成对基因的作用,却未考虑多个基因之间的相互作用。本文提出的BMSF算法综合考虑了多基因间的互作关系,通过引入随机产生的一个中间(0,1)二元矩阵,将分类问题转化为回归问题,实现了核函数参数寻优前提下基于支持向量机的高维特征选择。在基因选择过程中,对保留在模型中的基因子集根据其在肿瘤分类中对其他基因的贡献情况进行递归优化并反复更新。对9个癌基因表达二分类数据集, BMSF均以较小的信息基因子集获得了远优于文献报道的留一法预测精度,所选信息基因子集能同时提高多个分类器的留一法预测精度。(2)基于卡方测验发展了鲁棒的高维特征选择与无需训练的直接分类新算法TSG(Top-scoring genes)。预测精度既与特征选择有关,又受分类器的影响;训练是多数分类器产生过拟合的主要原因。主流算法TSP (Top score pairs)家族既是特征选择方法又是分类器,本文克服TSP不能反映样本大小、所选信息基因恒为偶数个、多分类时算法繁琐等缺陷,提出TSG算法。TSG提出并实现了基于转导推理、无需训练的直接分类,其决策过程为:先假定某个待测样本属于正(+)类,合并待测样本与训练样本得卡方值Chi+;再假定待测样本属于负(-)类,合并待测样本与训练样本得卡方值Chi-;如Chi+> Chi-,则待测样本属于正类,反之,则判为负类。多分类类推。TSG的特征选择过程为:先选取出得分最高的基因对TS2作为初始信息基因子集,接着每次从剩余的基因中挑选一个与已入选基因联合效应最好的基因添加到信息基因子集中,并根据训练集的留一法精度自动确定最终的信息基因子集。TSG对9个二分类和10个多分类数据独立预测均获得了明显优于文献报道的结果,特别是其训练集留一法预测精度与独立测试集预测精度相当接近,在部分数据集上独立测试精度甚至优于训练集留一法预测精度,显示TSG独特的、无需训练的直接分类能有效控制过拟合。(3)基于互作与卡方测验发展了信息基因选择新方法χ~2-IRG-DC (Chi-square test-based Integrated Rank Gene and Direct Classifier).χ~2-IRG-DC特征选择过程为:先利用单基因卡方值和成对基因互作卡方值,计算基因的综合加权得分,得基因的重要性排序;再基于χ~2-DC分类器序贯引入排序基因,并依训练集的留一法精度为第一标准、卡方增益为第二标准去冗余,获得了更为鲁棒的信息基因子集;最后基于χ~2-DC和信息基因实施独立预测。χ~2-IRG-DC继承TSG优点的同时,进一步通过基因综合加权评分大幅降低了算法复杂度,通过引入第二标准卡方增益增强了特征选择的鲁棒性。对9个二分类和10个多分类肿瘤基因表达谱数据集的独立预测精度表明,χ~2-IRG-DC模型明显优于文献报道;作为特征选择方法,χ~2-IRG-DC明显优于mRMR、SVM-RFE、HC-K-TSP、TSG等四种参比特征选择方法;作为分类器,χ~2-DC明显优于NB、KNN等参比分类器,与SVM分类器性能可比。本文方法对于推进高维数据特征选择和肿瘤分类识别具有重要理论意义和实用价值。
其他文献
生态风险评价是预测环境污染物对生态系统或其中某些部分产生有害影响可能性的过程。本文简要论述了生态风险评价研究的现状,介绍了生态风险评价的研究方法,以及生态风险评价
工程机械多路阀阀芯、阀体切削加工后残余应力重新释放和分布,形成微小变形,是卡阀的主要因素。我国工程机械液压件行业都不做消除残余应力处理。该文简要介绍了残余应力形成
本文研究了偶氮染料分子结构特征对其藻菌共生系统降解作用的影响。实验结果表明,藻菌共生系统对大多数偶氮染料有较强的降解作用,且这种降解作用的强弱与其分子结构特征有密
多药耐药是导致肿瘤治疗失败的重要原因,大多数观点认为内外多种因素引发多药耐药性的产生,然而迄今为止对其发生和调控机制尚无清晰明确的认识。近年多项研究发现肿瘤细胞有
本文以聚砜和磺化聚砜为原料,制备了低截留分子量的共混超滤膜,此种膜具有适中透水量,对分子量3000的PEG截留率在90%以上,对膜的制备参数,如聚合物浓度,不同溶剂,不同添加剂和凝胶介质对膜性能
由贵州地勘局105地质队编制提交的《贵州省兴仁县太平洞金矿区太平洞金矿段详查地质报告》通过国土资源部专家评审。太平洞金矿床为赋存于二叠系龙潭组、长兴组及三叠系夜朗
<正>化学混凝是染色废水脱色的主要方法.对染色废水混凝脱色的研究.一般集中于混凝剂种类及混凝工艺条件对脱色效果的影响和最佳工艺条件的选择,染料分子的结构及物理化学特
根据特定小流域的水文特点和实际要求,建立一个流域综合水质模型,它由三个子模型支持,即:河流水质模型、水库富养营化模型和非点源污染模型。本工作对河流水质模型(QUAL2EU)加以改进,使之适
研究背景肝细胞性肝癌(以下简称肝癌)对于放化疗均不敏感,手术切除后复发率高,常导致肝癌治疗的失败。肿瘤干细胞是肿瘤中一小群具有自我更新、无限增殖、多向分化及转移迁徙
<正>二极管矩阵检测器(PDA)作为紫外检测器的成员,不仅可获得色谱数据,同时得到被分析物质的光谱图,并且可以利用物质的光谱差异确定色谱峰的纯度.Waters高灵敏度996 PDA检测