应用数据挖掘算法研究多发性硬化症基因表达谱

来源 :汕头大学 | 被引量 : 0次 | 上传用户:xuwei1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景与目的:多发性硬化症(multiple sclerosis)是一种慢性、炎症性中枢神经系统失调疾病,其临床症状主要表现为病灶性脱髓鞘、轴突损伤和髓鞘再生受限。大多数多发性硬化症患者的发病结局是慢性多病灶性硬化斑块。多发性硬化症的群体发病率在全球范围的分布不均匀,依不同国家和特定族群发病率介于每十万人中两人至一百五十人之间。不同族群的多发性硬化症发病率的差异反映了该病的遗传易感基因在不同群体的差异分布。遗传性因子在多发性硬化症发生过程中的作用非常重要,并受到环境因素的影响。现有研究缺乏对多发性硬化症特征基因的了解。虽有一些研究利用基因芯片技术探索多发性硬化症的基因表达模式,但大多数研究所识别基因的数目较多,在实际中难以应用。对多发性硬化症的具有重要生物功能的特征基因进行研究是更好地了解该疾病发病机制的途径。在临床上,腰椎穿刺或核磁共振成像扫描大脑是当前主要的多发性硬化症临床诊断方式,但这两种诊断方式具有损伤性和费用昂贵的缺点。本研究应用数据挖掘算法分析多发性硬化症基因表达谱,寻找与多发性硬化症潜在相关的基因,并基于所识别的基因构建数学模型对样本进行分类,评估模型的分类性能,并确定性能最优的样本分类模型,以辅助临床上对多发性硬化症样本的判定。  材料与方法:本研究以公共的多发性硬化症基因表达谱数据库作为基础。首先,从基因表达数据库GEO获得支持数据源,并对基因表达谱数据集进行预处理,主要包括背景校正、归一化和过滤等步骤。接着,使用多种特征选择算法筛选疾病特征基因。特征选择算法的基本任务是从众多特征中抽取出那些对分类识别最有效的特征,进而实现特征空间维数的压缩,实际上是寻找将一个高维空间变换为低维空间的最优映射。本研究综合地应用三种著名的特征选择算法(递归特征删除法、ROC特征选择算法与Boruta算法),产生一个特征基因筛选的混成算法程序,识别出一组稳定的多发性硬化症关联基因。然后,应用生物信息学工具对基因的功能进行分析。最后,根据所筛选的基因,构建多种疾病分类预测模型,用交叉验证方法评估模型,并最终确定最优的疾病分类模型,并使用面对对象语言编写界面操作软件,用于新样本数据分类预测。  结果:综合地应用特征选择算法对预处理后的数据集筛选重要基因,根据特征算法对基因重要性的排序结果,在第一个数据集和第二个数据集中分别确定八个和二十三个基因多发性硬化症潜在相关基因。对两个不同数据集进行基因集合取交集运算,计算结果显示基因TNFSF10是重叠的基因。通过应用GeneCard生物信息数据库分析该基因的生物学功能,进一步确定基因TNFSF10与多发性硬化症的密切关系。本研究通过数据挖掘技术和生物信息学分析方法也发现基因Ccr3与多发性硬化症的相关性高。基因TNFSF10和Ccr3分别涉及的生物功能包括细胞因子激活、信号转导激活等,参与的生物过程涉及包括介导细胞凋亡、信号传导、炎性反应等。在所识别的基因中,其余基因对多发性硬化症样本的分类性能良好,它们与多发性硬化症的关联性证据有待进一步挖掘。对数学模型的分类性能进行验证评估后,确定了支持向量机模型为分类性能最优的疾病样本分类器,以本研究的整个数据挖掘框架为基础,设计和开发一个界面操作软件cMS。  结论:(1)疾病的基因表达谱数据是海量的,包含成千上万个的基因。数据挖掘技术可以分析疾病的基因表达谱,有效地识别疾病的特征基因。  (2)本研究通过数据挖掘算法甄别了两个基因TNFSF10和Ccr3,它们与多发性硬化症密切相关。  (3)基因TNFSF10和Ccr3的生物功能分别涉及细胞因子激活、信号转导激活等,参与的生物过程涉及包括介导细胞凋亡、信号传导、炎性反应等,与多发性硬化症发生关系密切。  (4)在所识别基因的基础上,构建多种疾病分类数学模型,并通过交叉验证技术确定最优的分类模型作为疾病样本的判定模型,最后使用面对对象语言编写一款界面操作软件实现本文提出的数据挖掘分析框架。该建模分析框架,可以应用于分析和识别其他复杂性疾病的致病性遗传因子。
其他文献
纳米颗粒具有独特的物理、化学和生物特性,越来越广泛地被应用于生产生活的各个领域中。它们在这些领域的应用带来了巨大的经济效益,但同时也产生潜在的生物安全性与环境安全性
摘要:苏霍姆林斯基说过:“只有能够激发學生自我學习的教育,才是真正的教育。”心理學家认为“學生的课堂學习是一个心理结构自主构建的过程”。由此可见,教师的教只有建立在學生自主构建的基础上才能发挥作用,激发學生的内部动力是非常重要的。新课程理念提倡培养學生的自主學习能力,我们可以指导學生合理有效地运用多媒体课件、网络、实物展台、电子白板等信息技术,帮助學生搭建自主探索、交流、展示的平台,让课堂进入生机
摘要:通用技术作为一门新生学科,涉及知识面广,具有较强的时代感。文章结合最新的Web程序设计技术和WebQuest学习方式,针对通用技术课程建立起一个交互、开放、易用的网络学习平台,采用B/S三层架构进行开发,具有易维护、易扩展、安全可靠等特点,功能特点是支持合作式探究和体现过程评价。  关键词:通用技术;WebQuest;ASP.NET;三层架构  中图分类号:G434 文献标识码:B 文章编号
摘要:教师远程培训由于时间上的灵活、资源的丰富等特点日益受到一线教师的欢迎,然而如何保障和提升教师远程培训的质量一直是很多远程教育者研究的问题。Moodle学习平台由于自身的优势以及具有较多的交互功能而有助于提高远程教育培训的质量。文章结合教师教育技术初级培训探讨基于Moodle平台教师远程培训交互方式的特点与应用。  关键词:Moodle平台;教师远程培训;交互  中图分类号:G451.2 文献
摘要:计算机是很多城镇高中生学习和生活的必备工具,但计算机在使用过程中经常会出现一些问题,高中生如果自己具备计算机基本常见维护能力,便能在第一时间及时处理故障。为此,作者认为计算机维护技术完全可以作为信息技术的选修课之一进入高中课程。  关键词:普高;计算机维护技术;选修  中图分类号:G40-057 文献标识码:A 文章编号:1 673-8454(201 2)06-0025-03  普通高中的信
摘要:学科教学知识是教师专业结构的重要组成部分,是区别具有同样教育背景的教师成长为一般教师还是优秀教师的关键所在,文章阐述了学科教学知识的基本概念,并结合工作实际,提出了通过区域化学科研修活动,促进信息技术教师学科教学知识形成的具体做法。  关键词:教师专业化;学科教学知识;教学设计  中图分类号:G451.2 文献标识码:A 文章编号:1673-8454(2012)06-0091-04  信息技