基于数据挖掘的生物序列分析研究

被引量 : 0次 | 上传用户:wgsgdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列分析是生物信息学的主要研究领域,其任务是从浩瀚的生物序列数据中发掘知识和揭示生命的奥秘。生物序列分析的主要研究内容包括序列比对、蛋白质结构预测、基因组序列分析等。本论文着重研究了双序列比对算法和蛋白质二级结构的预测方法。首先,论文详细研究了序列比对方法,其中包括Needleman等人的动态规划(DP)比对算法、Smith-Waterman算法、以及部分多序列比对算法,并比较了各自的优缺点。然后提出一种基于频繁子序列SAFSS (Sequence Alignment based Frequent Sub-Sequences)的比对方法。虽然DP算法通过复杂的数学计算可以获得最优或近似最优的精确比对结果,但有可能忽略掉序列本身的生物意义。SAFSS尝试从序列的生物学意义入手,比对中主要考察序列的高频子序列而不是分离的单个字符,易于发现隐藏于序列之中的富含生物学意义的序列模式。与DP算法相比,SAFSS显著降低了算法的空间复杂度,减少了计算量,具有较好的性能。论文的另一个研究主题是蛋白质二级结构的预测方法。在已有的算法中,重点研究了基于BP神经网络的预测方法并进行了测试。研究中把对BP神经网络的一些常用改进算法,如附加动量法、自适应学习率调整策略以及遗传算法用于BP神经网络中,这些算法的应用既避免了网络陷入局部极小,同时还提高了系统的收敛速度和预测精度。其次,在蛋白质二级结构预测中采用了序列模式挖掘方法。在数据预处理中,主要考虑了氨基酸之间疏水特性邻接关系进行特征提取,因而提取的特征更能反映生物序列本身的特性,这样使得基于序列模式挖掘的预测方法具有较好的性能。本文的研究内容是生物序列分析中两个重要课题,研究中提出的SAFSS比对方法和基于序列模式挖掘的蛋白质二级结构预测方法具有一定的研究意义,为作者进一步进行序列分析研究奠定了基础。
其他文献
新时代,我们物质和精神生活发生了种种让人意想不到的改变,动画艺术也不应墨守陈规、止步不前。在近期一些令人喜爱的动画作品中,可以看到种种让人惊喜的变化,这些变化使得动
<正>作为最富活力的经济群体,中小企业遍布一、二、三产业,为促进经济增长、推动技术创新、增加社会就业、改善人民生活起到了重要作用,已成为推动我国国民经济和社会发展的
<正>往来账款是企业在生产经营过程中因发生供销产品、提供或接受劳务而形成的债权、债务关系。它主要包括应收、应付、预收、预付、其他应收、其他应付款。不同之处是:应收
目的:针对近红外光谱分析的特点及中药制药过程质量控制的现状,分析近红外用于中药制药过程的可行性与优势所在,重点对近年来近红外在中药制药过程中各个环节的最新应用作一
本文采用匿名观测法调查了上海城区商场、市场、银行、公共交通、通信业营业厅、餐饮等多个公共领域的语言生活状况,研究发现普通话已经进入上海城区各主要公共领域,并在不少
排放权交易政策旨在通过污染物排放权的分配和交易来建立排污控制的市场体系。它的理论基础源于科斯从明晰产权的角度,为外部性问题内部化而提出的全新解决方法。排放权交易
<正>对商业银行内部控制进行综合评价,必须确定评价指标的权数,权数对评价指标起着权衡轻重的作用。因此,科学地确定评价指标的权数,是提高商业银行内部控制评价质量的前提。
技术是人的技术,人是技术的主体,人性是技术的内在根据,技术是人性的外在展现。技术是人的器官的外在延伸,是一种强化了的满足需要的工具,是人类实现解放与自由的手段;技术是
"多动症"即儿童多动症,又称"轻微脑功能失调"或"注意缺陷障碍",是儿童常见的一种以行为障碍为特征的综合症。它对儿童的成长造成极坏的影响,甚至会危及他们的一生,也是父母及