链码技术和聚类分析在基因序列中的应用

被引量 : 0次 | 上传用户:hai198351
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代生物技术的快速发展和多种生物基因组计划的实施和完成,以致序列信息和功能信息的生物数据呈指数增长,进而产生了生物信息学,综合利用生物学、数学和计算机科学技术对生物基因结构进行知识发现和数据挖掘研究,以揭示基因组信息结构的复杂性和遗传的根本规律。目前,已经有相当多的知识发现和数据挖掘方法应用到了生物信息学领域当中,并取得了丰硕成果。本文针对生物信息学中核酸和蛋白质序列分析,对DNA序列查找方法进行了分析,并对序列聚类从序列的整体相似性和局部相似性两个方面着手研究,提出了基于改进链码技术的DNA序列查找算法,详细阐述了整体相似性聚类算法和局部相似性聚类算法并进行了改进。在基于改进链码技术的DNA序列查找算法的设计与实现中,通过无退化的图形曲线展示DNA序列,根据曲线特征,定义向量过滤器和面积过滤器,缩小搜索范围。对基于编辑距离的整体相似性序列聚类算法进行了分析,以序列间的概貌向量距离来衡量簇之间的相似度,加入公共子串剪枝策略避免了原算法中两条序列的子序列之间的编辑距离的计算,缩短程序运行时间。在局部相似性序列聚类算法中,在PrefixSpan算法基础上进行改进,使得算法第一步的结果是频繁闭合子模式集合,聚类过程中通过簇之间包含的相同频繁子模式的数量来定义簇之间的相似性,降低数据冗余程度,并提高聚类质量。本文最后对本文算法进行了实验测试。测试结果表明,本文提出的基于改进链码的DNA查找算法能够较好地过滤相关程度低的序列,达到实验预期目标。在整体相似性序列算法中,通过实验表明,同时考虑序列整体和局部特征将大量减少后续的计算量。另外,针对生物序列聚类分析,由于大量重复序列及“核心”序列模式的存在,通过挖掘序列频繁子模式,以其局部特征表征整条序列,与关注序列整体特征的整体相似性聚类算法相比,这种方式更符合实际情况,并能够取得良好的效果,但在需要精确比对结果的情况下,则需要抓住序列整体特征的同时对每一个元素进行处理,应根据不同需求来选用这两类方法。
其他文献
在不断强调建设“资源节约型、环境友好型”社会的时代背景下,环境保护问题应该引起我们的高度重视,环境的优劣不仅关系到每个人的身体安危,更关系到社会能否可持续发展,并对社会
为了搭建出合适的海事云计算模型及处理框架,从海事信息化建设过程中存在的问题着手,针对海事数据及信息特征进行分析,将海事数据分为基础数据、动态数据等类型,同时得出海事
工程建设项目由于投资大、工期长,在建设过程中不可预见的因素较多,导致工程建设项目各参建单位不可避免地面临着各种风险,监理单位作为工程建设项目管理的主体之一同样也面临着
随着数学的发展,有着几千年历史的中国数学教育与世界数学教育接轨了。自从以计算机技术为代表的信息技术进入数学教育领域以来,它就在改变数学的教学方法中显示了无可比拟的强
我国是一个地震多发国家,桥梁是震后交通工程中的生命线工程结构,因此,对震后桥梁结构损伤诊断研究日益受到关注。地震波属于非线性非平稳随机激励且携带能量巨大,这使得震后
随着我国教育信息化进程的逐渐加快,以数字化、网络化、多媒体化、智能化为主要代表的现代信息技术为学习者提供了丰富的数字化学习资源,教育教学从思想观念到方式、内容、手
目的:构建特异性抑制ILK基因表达的siRNA真核表达载体,筛选出最佳抑制效率组,并检测其对肺癌A549细胞生物学活性的影响。方法:根据Genbank中人ILK基因序列,利用在线设计软件设计三
农村非点源污染己成为影响水体环境质量的重要污染源,对河流水库等水体具有很大的危害。由于农村非点源污染具有随机性、滞后性、不确定性和长期性等特点,因而监控与预测难度较
华喦是我国十八世纪富于独创精神的艺术家。他是一位安素守贫、离垢刷尘的文人画职业画家,其艺术风格清新隽秀、帅离疏宕,以新鲜的趣味和新颖的艺术表现,为中国绘画的发展作出了
对管理学科概念和理解的运用对管理学研究生的教育培训至关重要,因为他们通常在行业中担任着对智力具有较高要求的职位,如咨询师、市场研究者、广告商、政策制定者、首席执行