最长公共子序列查询算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:suitky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最长公共子序列问题是计算机科学领域的一个经典问题,用于返回多个序列的最长公共子序列,简称为MLCS。MLCS问题在基因检测、序列相似性比对、模式识别、数据挖掘、代码克隆检测、文献查重、网页聚类等领域有着重要应用。目前求解MLCS问题通常采用基于动态规划的算法和基于匹配点的算法。随着字符序列数量和长度的增长,已有算法从效率和扩展性的角度不能满足实际需求。本文针对MLCS问题进行研究,研究内容如下。首先,提出一种基于单哈希的最长公共子序列算法SF_MLCS,该算法首先按序列中字符间后继关系生成每个序列的后继表,进而用有向无环图表示所有序列的后继表。在此基础上,通过哈希的方式快速存取字符间的后继关系。和已有方法采用双哈希来记录前驱及后继的方式相比,本文提出的单哈希方法在提升效率的同时,降低了所用内存空间。其次,针对单哈希方法空间代价高,无法处理长序列的问题,提出一种基于分治策略的最长公共子序列算法DC_MLCS算法。基于表示所有序列后继表的有向无环图,DC_MLCS算法首先预处理生成基于前pre_level层匹配顶点的子图,然后对该子图中所有出度为零的顶点逐一处理,在处理每个顶点时,删除前一个被处理顶点所占用空间,从而降低了系统的空间代价,可以处理更长的序列。并在此基础上提出了top-k最长公共子序列的概念,设计和实现相应的算法来求解给定的n个序列中,所有k个序列的最长公共子序列中最长的公共子序列。最后,基于真实数据集进行实验,验证了本文算法的高效性。
其他文献
为保证正确性,并发程序的执行过程中必须保证存在一致性关系的共享变量得到原子性执行。若对存在一致性关系的共享变量的访问语句与其他线程中的语句产生预期之外的交织,且执
军用光电系统的研发管理面临着复杂的发展环境。军用光电系统是市场急需的高技术产品,装备信息化发展要求加剧了该领域的竞争形势。军工科研部门的传统组织结构,使得传统职能
近年来,随着我国经济的持续快速的发展,企业之间的海外收购案例越来越多。我国大型食品企业积极地谋求国际化的发展,已经成为企业发展的必然选择。企业通过与国际企业的联盟和收购,拓展海外市场,谋求更大的市场份额也成为我国大型企业发展的基本趋势。文献研究表明,国内的大型食品企业收购的意愿强,数量多,但质量并不高,成功与失败各占一半。究其原因,主要是影响收购与兼并因素比较复杂,既要把握宏观和微观的因素:如政治
在我国,医药卫生事业的发展跟我们日常生活息息相关,它维系着亿万群众的身体健康,说小了它关系着无数家庭的幸福状况,往大说它是重大民生的问题,是实现我国社会主义伟大复兴很重要的环节。近几年,国家新一轮的医改作出重要指示,继续在党的领导下深化医药卫生体制改革,明确未来要加快医药卫生事业发展步伐,让医药生产力适应人民群众日益增长的医药卫生需求。贯彻落实科学发展观、不断的提高人民群众身体健康,是促进我国经济
信息技术、互联网与计算机等技术建构的网络空间成为与现实社会空间并存的第二空间。但网络空间不是一成不变的,而是在技术发展中不断演进的。随着大数据技术在互联网领域应
在二十世纪,许多西方文学流派不断涌现在文坛,壮大发展,又退出文坛,如此以往,前仆后继。罗曼·加里,一位长着长长的鹰钩鼻的男人,身兼多职—二战时期的飞行员,外交官,电影导
金融危机后,美国制造业一度出现强劲增长,长期以来的“去工业化”似乎有停止的态势。此外,金融危机的爆发,也使美国意识到过度依赖虚拟经济增长而忽视制造业发展的弊端。2009
食品安全作为事关公众健康的重大公共卫生问题,已成为全社会的共识。现阶段公众对食品安全期待日益提高与食品安全风险隐患依然严峻的矛盾日益突出。在食品安全上升为国家战
语音转换技术实现的是两个不同说话人声音个性特征之间的转换,即通过改变源语音的声学特征使之具有目标语音的声学特征,同时保留语义信息不变。语音转换技术可以提供个性化语
G企业拥有深厚的技术积累和丰富的管理经验,但是当前面临着组织内外部挑战与机遇并存的新局面。为了G企业在新形势下健康可持续的发展,需提升项目的成功率和执行效率。不仅要