基于模式识别方法的生物序列和基因表达数据分析

来源 :中山大学 | 被引量 : 0次 | 上传用户:whisperings
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着分子生物学的发展,特别是人类基因组计划的顺利完成,生命科学研究进入后基因组时代。在这个时代,大量生物数据的积累为人们在分子水平探索生命的奥秘提供了宝贵的第一手资料,然而,海量生物数据的供给与现有数据分析能力之间的矛盾日益突出,生命科学的发展迫切需要自动的、高效的、可靠的数据分析和挖掘技术,于是,一门以生命科学和计算机科学为基础的崭新的、拥有巨大发展潜力的新学科逐渐兴起,这就是生物信息学。 模式识别是一种利用计算机对输入的数据进行分析,从而实现对研究对象的解释、归类、和鉴别分析,进而揭示事物本质的技术。在上世纪60-70年代模式识别技术得到快速的发展,并且逐渐在光学字符识别、语音识别和医学数据分析方面得到成功应用。近年来,模式识别技术也开始被用到生物数据分析中,并且在生命科学研究中扮演着越来越重要的角色,尤其是在基因识别、基因发现、motif识别、蛋白质分类和识别、系统发育分析以及基因表达数据分析等多个研究领域日渐显示出传统实验技术无法比拟的优势。但是由于生物数据有其固有的特征,比如维数不固定、数据集中各类样本严重不平衡,而且一种生物现象可以从多个角度进行刻画,这就给传统模式识别技术在生物数据分析中的有效应用带来新的挑战。本文的目标是研究分析生物序列和基因表达数据的新算法,力求对生物数据进行有效的刻画和分析,从而更好地揭示隐藏在海量数据中的生命规律。 论文第一章首先回顾了生物信息学的发展历史和模式识别技术在这一领域的应用情况,然后给出论文章节的安排。第二章提出了一种预测蛋白质序列亚细胞定位的方法。第三章和第四章研究如何根据全基因组序列分析和推断物种之间的进化关系。第五章研究基因表达数据分析的问题。最后在第六章对论文进行总结,并提出今后的一些研究建议。 第二章提出了一种基于最优局部信息融合的蛋白质亚细胞定位预测方法。该方法基于蛋白质合成过程的分选机制,从蛋白质序列中搜索出一个最佳的分割位置,用以将一条完整的蛋白质序列分割成分选信号和成熟蛋白质序列两个部分,然后分别从这两条序列中提取相应的特征,并且将这两种特征结合起来刻画整条蛋白质序列,最后设计基于支持向量机的融合分类器对蛋白质亚细胞定位进行预测。在公共蛋白质序列数据集上的实验结果表明,本章提出的方法能够有效改进蛋白质亚细胞定位预测的效果,同时,在真核蛋白质上找到的蛋白质序列分割位点与真实的生物现象相符合,这能够为预测蛋白质的剪切位点提供有用参考信息。 第三章提出了一种基于谱聚类技术的系统发育树重构算法。该方法从全局的观点出发,采用分裂的策略,利用谱图聚类方法(Spectral Graph Clustering,简写为SGC)研究物种之间的进化关系。首先构造一个距离矩阵,其中元素表示两个物种之间的进化距离,然后利用谱图理论求解聚类问题,就是根据最大—最小准则构造划分图的最优化问题,再通过解该矩阵的Laplace矩阵的特征值问题来求解最优化问题,最后,根据最大特征值所对应的特征向量将物种进行分类。SGC算法在模拟数据上得到比邻接法(Neighbor—joining,简写为NJ)更加准确的结果,而在杆状病毒基因组数据集上推断的系统发育树,较好地支持目前公认的分类结果。 第四章提出了一种基于全基因组信息融合的系统发育分析方法。首先定义了两种新的基因组进化距离度量:有序基因块顺序重排的编辑距离和共有基因一致性距离度量,然后通过一个线性模型将这两种进化信息与基因含量变化信息融合起来,构造一个包含三种进化信息的距离度量,最后根据这种综合的距离度量推断种群的系统发育树。本章方法在模拟数据集上得到的实验结果比采用单独的进化信息更加具有灵敏性,尤其是对那些进化距离比较短的物种,我们的方法能够有效地刻画它们之间的进化关系;在虹彩病毒和痘病毒数据集上,得到的实验结果与目前公认的分类结果相吻合。 第五章提出了一个基因选择模型:Integrate filter+wrapper。首先提出了四种用于评价基因重要性的标准:信息增益、决策树、局部可分性和Fisher Score,接着根据这四种标准分别对基因的重要性进行排序,然后用每个基因的预测准确率对它们进行加权,计算出每个基因重要性的综合得分,进而筛选掉那些得分低的基因,最后采用forward—backward策略,对重要性得分高的基因子集进一步筛选。在五个癌症相关数据集上采用本章方法找到较少数量的关键基因,得到较高的识别准确率。
其他文献
差分进化算法是由Storn和Price于1995年提出的一种新的智能优化算法。它是一种简单有效的全局优化算法,并且具有较好的稳定性和较快的收敛速度。由于其原理简单,易于理解和实现
本研究分三部分给出了三种概念格的生成算法:第一部分在对象集内引入两个偏序关系≤和()及一种新的交运算∩来建立改进的对象格,然后通过此对象格产生概念格;第二部分利用矩阵行秩
学位
手写数字识别作为模式识别的一个重要分支,在邮政、税务、交通、金融等行业的实践活动中有着及其广泛的应用。而这些领域对识别的正确率有着极高的要求,同时要求有极低的误识
学校和家庭是小学生主要的成长环境,在学生成长过程中,学校教育和家庭教育都起着至关重要的作用.但是在实际教育过程中,家庭教育往往存在着许多问题,家长忽视对于学生的教育,
本文对有限max型非光滑函数,定义了一类积极集策略的光滑化函数,该光滑化函数仅与函数值接近极大值的单个函数相关,因此具有更好的计算效率.基于该类光滑化函数,本文给出了一种解
非参数回归模型相对于传统参数回归模型而言,可以更好地拟合实际数据,被广泛地应用于医药、卫生、工业、经济管理、地质、气象以及农业等各个领域,是统计学家研究的一个热点
近年来,广义系统在电网,经济,航天和生物工程等领域取得了广泛应用,由于模型简化、环境变化和元器件老化等原因,不可避免地会出现各种不确定性。因此,基于精确数学模型的现代控制理
为探讨小麦新品种周麦27号的高产优质配套栽培技术,采用4因子2次正交旋转组合设计,研究了播期、播量、追施氮肥期和喷施多效唑对周麦27号主要农艺性状和品质特性的影响。结果
信息粒度是对信息颗粒大小的描述,不同种类、不同层次的粒度产生的效果不同。信息熵是信息粒不确定程度的度量,信息熵越大,信息粒的不确定程度也越大。   本文对粗信息粒与细