关联规则挖掘在病毒基因数据分析中的应用

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:yl9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2013年2月在浙江省、上海市、江苏省、安徽省爆发的H7N9甲型流感病毒在全国范围的广泛传播,引起了人们的广泛关注。所谓甲型流感病毒(InfluenzaA virus),也称为A型流感病毒,该病毒主要存在于动物中,一旦变异会造成世界流感大流行;而去年这一H7N9新型病毒的流行,也使得世界卫生部将甲型流感病毒的研究提上议程。随着基因组计划的完成,我们所测得的甲型流感病毒感染者的序列数据越来越多,如何运用一种有效的数据分析工具来分析和处理这些大量和复杂的序列基因数据,已经成为甲型流感病毒乃至现代生物时代的一个重大挑战。在此情况下,将数据挖掘技术与生物信息学进行结合,便是一个最适合,也最有效的办法。根据对以往资料、数据的分析和研究,本文以甲型流感病毒H1N1,H3N2为例,进行基因序列二级专用数据库的构建,在对关系型数据库设计原则、概念设计、逻辑设计研究分析的基础上,提出相应的E-R图及关系表设计。该甲型流感病毒的数据主要来源于Genbank数据库中的基因序列,通过该数据库自带的检索工具Entrz来搜索我们所需要的序列数据,将检索得到的数据保存为XML格式,其目的是方便异构数据库数据的整合,在这里我们使用模板驱动映射,实现SQL数据与XML文档数据的映射。在以上工作的基础上,最终构成以genbank格式存储序列的本地二级基因病毒序列数据库。本文另一个重点研究的问题就是数据挖掘的关联规则对病毒基因数据频繁序列的挖掘。本文针对Apriori算法的致命缺点,提出基于生物序列频繁项目集的改进算法。该算法模型主要思想是使用多支持度的度量方法,涉及局部支持度、分布支持度和总体支持度,用这三种支持度分别衡量一个相应的序列模式在一个指定的序列中出现的频繁度,以及在一个指定的序列集的序列数中出现的频繁程度,和在整个序列集的序列模式中出现的频繁度。这样的序列频繁模式挖掘方法,能更好地适应序列保守序列和重复序列的挖掘,相比Apriori算法,其具有更强程度的专业型和特色性。
其他文献
随着Internet在全球范围的发展,人们对通信系统的容量、带宽及传输质量等都提出了更高的要求。采用密集波分复用技术(DWDM,DenseWavelength-DivisionMultiplexing)的光网络可以
Random oracle model方法论是Bellare和Rogaway在20世纪90年代中期提出的。Random oraclemodel方法论的出现,使得过去仅作为纯理论研究的可证明安全性理论,迅速在实际应用领域
在网络互联技术迅速普及的今天,人们的视野也随着计算机网络的延伸而开阔,网络信息的安全也越来越被人们所关注,防火墙虽然在访问控制方面性能卓越,但对于网络上的数据包内容却视
随着网络的不断发展,大众标注技术得到了广泛的应用,使得舆论传播和人际交往方式发生了革命性的变化。用户通过微博、社交网站对文本进行标注以及评论,引发了越来越多的网络群体
跨企业组织又称为虚拟企业组织,是面对机遇产品,由多个具有各自专长的敏捷企业联合起来组成临时性组织进行机遇产品的承接、研制、开发与经营的新型企业组织形式。跨企业项目是跨企业组织最主要的生产运行方式。跨企业项目运行过程中存在着多种约束条件,这些约束条件制约着项目的进展状况。资源约束往往成为在跨企业项目运行的主要制约因素,合理利用跨企业项目中有限的资源是跨企业项目成功的关键,项目计划是调配资源有效使用的
在允许各种网络资源以开放方式运作的前提下,入侵检测系统成了确保网络安全的一种必要手段。入侵检测就是发现或确定入侵行为存在或出现的动作,它实际上是一种信息识别与检测技
本文通过软件Agent技术建立一个油田开发智能软件社会,实现对压裂方案制定决策系统协同设计的模拟。 压裂方案制定决策系统是涉及多个单位协同设计和采用多种计算方法的复
软件复用的实践有3个趋势,一是在软件领域将软件复用的实践惯例化、用户化,不仅要考虑技术的因素,而且要考虑管理的因素;二是将复用技术集成到软件开发过程中,并且研究软件过程形
支持向量机(Support Vector Machine,SVM)是以统计学理论和结构风险最小化原则为基础的,一种处理小样本问题的数据挖掘方法。由于其具有完备的理论基础和很好的泛化能力,被广泛应
Agent技术是一个迅速发展的研究领域,目前已经广泛应用于商务、工业、军事、教育等方面。专家们指出:在未来10年内大部分信息技术的发展都将受到Agent的影响,并且许多消费产品将