基于支持向量机和遗传算法的基因表达谱数据分类

来源 :广西大学 | 被引量 : 0次 | 上传用户:xiaolaohu_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症一直困扰着人类的健康,随着基因芯片技术的发展,对癌症基因数据的分类研究在生物信息学中有着越来越重要的作用。由于基因表达谱数据具有高维度、小样本的特点,且含有大量冗余基因和噪声,使得分类计算耗时且效果不佳。针对基因表达谱数据的特性研究设计高效的特征提取与分类算法及其并行处理具有现实意义。利用巴氏距离公式对基因表达谱数据计算每个基因属性的B值,依据B值大小排序选出排序靠前的部分基因属性,通过特征选择达到初步降维。然后,利用本文提出的主元线性判别遗传算法PCLDGA对初步降维后的数据进行特征提取,实现二次降维。最后通过遗传算法对支持向量机(SVM)分类器进行参数优化,使用调优的训练模型对降维后的数据进行分类。实验结果表明,这种分类方法提高了基因表达谱数据分类的准确率。在多核CPU计算结构上,设计并行化遗传算法对SVM分类器参数调优,以实现加速基因表达谱数据分类过程。采取的方法是:将初始种群划分为多个小种群,这些小种群各自独立同时在多个worker上进化计算,把最优个体基因遗传下来,然后将各个小种群的最优基因交叉选择结合进化,即把通过遗传进化生存下来的优秀个体组成新的种群,新的种群再划分为多个小种群,以此循环,使之达到最佳适应能力,获得SVM优化参数组合,同时对留一交叉验证并行化处理。实验结果表明,基因表达谱数据分类并行化处理获得了较高的加速。
其他文献
研究背景:当今水体富营养化污染以及由此造成的蓝藻爆发已成为人类面临的首要环境问题。大量蓝藻在水体中生长时产生的许多有毒物质微囊藻毒素对水环境产生了严重影响并其对多
肠道正常菌群谱和菌群失调的表现、判定及处理重庆医科大学附属第一医院传染科(630042)王其南1 肠道正常菌群人类正常肠道菌群极为复杂,包括多种需氧菌和厌氧菌。结肠内寄生菌种数即多
文章在分析高安全等级网络所面临的APT攻击风险基础上,简述了高安全等级网络抗APT攻击方案的主要思想,阐述了高安全等级网络抗APT攻击方案设计,并提出了高安全等级网络抗APT
急性胰腺炎的诊治指南是临床医师救治急性胰腺炎尤其是重度急性胰腺炎(SAP)的重要依据,但是中国目前在很多环节存在认识和实施上的不统一,直接影响到急性胰腺炎的救治效果和
目的分析微小病变样Ig A肾病(MCD-IgAN)患者临床病理特点、治疗反应及长期预后。方法回顾性分析1989年1月至2013年7月南京军区南京总医院Ig A肾病随访登记数据库中经肾活检确
回望二十世纪的艺术天空,可谓群星璀璨,熠熠灼目。在这群星争辉的天幕上,有一颗本该耀眼的明星,却似避于遥远的天边,少为众人瞩目。他就是金石诗书画印俱佳的一代艺术大师朱
郭思乐教授的"生本教育"理念在很大程度上极大地改变了当前语文教学的观念,为广大的语文教师发挥个人的潜能、展示自己的才华,开展国家提倡的素质教育提供了新的契机。本文正
<正>7月31日,上海三零卫士信息安全有限公司在上海四季酒店三楼宴会厅隆重举办《实战固.隔.监三零走进你——三零卫士2014工控信息安全产品渠道发布大会》。来自全国各地的石
目的非小细胞肺癌(non-small cell lung cancer,NSCLC)患者表皮生长因子受体(epidermal growth factor receptor,EGFR)基因突变是表皮生长因子受体酪氨酸激酶抑制剂(epiderma