基于限长空位和onE-off约束的模式匹配求解模型研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yvhtoss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在模式识别问题中引入通配符这种特殊字符以匹配字母表中的任意字符,从而形成了带有通配符模式匹配这一新的研究方向,在计算生物学、信息检索等研究领域得到了广泛关注。然而,上述领域的大量研究表明,频繁共现在一段文本区域内的多个模式之间表现为某种模式形式。比如在DNA序列中,TATA序列作为内含子的起始标志常出现在CAATCT序列下游30-50 bp的位置,这两个子序列共同组成的模式可提高序列特异性,可以标记为“…CAATCT[30,50]TATA…”。  上述情况可进一步推广为子模式序列集,其中两个相邻子模式的间隔在一定长度范围内,为表示这种灵活的位置间隔,将通配符从指代单个字符扩展为指代一定长度的子串,称此通配符为限长空位(Bounded length gaps)。另外,通过引入one-off约束以保证子模式序列集的稳定性,避免了个别子模式异常的出现次数影响子模式集的匹配。由此而得到了带有限长空位和one-off约束的模式匹配(PMGO)问题。本文围绕PMGO问题,开展了一系列相关的研究工作,主要研究成果包括以下几个方面:  (1)借鉴约束可满足问题框架,对PMGO问题建立求解模型。模型由变量、值域和约束条件构成三元组,并运用形式化语言描述了问题的限长空位、约束条件和解空间等主要概念,同时说明了PMGO问题的基本性质,其中包括在特殊条件下的完备性和相邻匹配解在文本中的位置关系。另外,针对限长空位使得匹配问题形成了多分支的解结构,借助模型说明了在此解空间中搜索满足one-off约束的最优解为组合优化问题;  (2)提出一种求解PMGO问题的启发式搜索算法。首先,定义了解空间的划分边界,提出了采用分治策略的解空间划分算法SPLIT,将PMGO问题等价划分为若干独立的子问题,并从理论上说明了划分前后的解结构等价。实验结果表明了SPLIT算法可有效降低非线性匹配算法的时间消耗。其次,将划分后的子问题转化为图结构下的路径搜索问题,其中自顶层到底层的路径集合为解空间,而彼此独立的路径子集为匹配解集,并证明了问题转化前后求解的等价性。之后,提出一种启发式路径搜索算法GPM,根据one-off约束得到节点之间的约束关系,再迭代交互的进行剪枝与搜索,且GPM算法的输出即为PMGO问题的解。实验部分使用匹配解丢失率度量已有启发式算法和GPM算法的完备性,结果表明GPM算法可以与已有启发式算法形成互补,有效降低匹配解丢失率;  (3)给出了PMGO问题在特定条件下的完备性分析和求解算法。首先,将模式重复度作为一种模式特征,研究了以下两种情况的求解。一方面针对模式中无重复字符的情况,说明了使用贪心搜索策略可得到PMGO问题的完备解,该结论适用于GPM算法和已有启发式算法,实验部分以近似比为指标进一步说明了重复度对问题完备性的影响;另一方面,对于尾部带有重复字符模式串,提出了一种基于动态剪枝策略的小兵算法,实验结果表明小兵算法有效提高了匹配解的质量。
其他文献
作为一种新型的计算模式,云计算具有非常广阔的发展前景。云计算是信息技术领域向集约化、规模化、规范化与专业化方向发展过程中取得的重要阶段性成果,被普遍认为是下一个重
随着全球经济一体化的发展,企业会遇到很多来自国内外的机遇和挑战,要想在这个飞速发展的信息时代生存下来并发展壮大,必须重视信息化建设,具备迅速把握形势和快速决策调整的能力,以提高企业的竞争力。总体上看,我国大多数企业的信息化应用水平较差,信息化建设的成功率较低。根据国家有关部门的调查报告显示,企业信息化实施成功率不到10%,达到预期目标的更是寥寥无几。造成企业信息化结果不理想的原因往往归结为信息化建
图像配准是对不同时间、不同视场、不同传感器的两幅或多幅图像进行空间几何变换,使得各幅图像在空间上能够精确匹配对应,在军事、遥感、医学、计算机视觉等领域得到了广泛的
学位
无线网状网络(Wireless Mesh Networks,WMN)是近年来得到长足发展的一项新兴技术。它是一种无中心、分布式的网络结构。主要的网络拓扑特征是网络中只有一个或多个节点充当网
网络结构的复杂性、提供服务的丰富性、系统间的交互性的不断提高对网络协议的快速开发、正确性和性能提出了更高的要求。这促使了以形式化方法和技术为基本的协议工程的发展
公共仓库元模型(Common Warehouse Metamodel, CWM)是对象管理组织(Object Managemet Group, OMG)制定的一个互操作标准。它为元数据定义了一种通用语言和交换机制,能够解决
由于数字图像容易受到在获取或者传输过程中使用的器件或者通道的干扰,带来了不同程度的噪声信息,使得图像的视觉效果难以满足了人们或者机器的识别。因而,数字图像处理的一
目前,多核体系结构已占据了桌面微处理器市场的主导地位,但是由于缺乏核间通信和协作,大部分应用程序都没有充分利用多个处理器核的资源,效率较低,而且多核处理器的功耗密度
本文通过对内存数据库技术的研究,结合网管系统测试平台项目ISEE,设计并实现测试评估模块,以优化ISEE存取日志生成测试报告的效率,从而提升整个系统的性能。论文首先分析综合