K-前缀树全文搜索方法及其应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:seacowo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学技术高速发展和信息爆炸式膨胀的时代,如何快速和有效的从海量信息中获取有用信息是信息检索技术主要的研究课题。当前应用广泛的后缀树和后缀数组全文搜索方法在搜索速度和计算空间方面各有特点和局限,本文正是针对此问题提出了K-前缀树全文搜索方法。K-前缀树全文搜索方法是一种基于前缀树且能够对内容长度不大于K的字串进行搜索的文本全文搜索方法,其主要特点是使用K子串来构建前缀树,使得最大空间复杂度为O(Zk+1),并具有折中后缀数和后缀数组在计算空间和搜索速度上的优点。通过与广泛应用的后缀树和后缀数组两种全文搜索方法的计算比较,说明了K-前缀树全文搜索方法在计算空间和搜索速度上具有良好的综合性能。载体识别是生物信息学中一项基础而重要的任务,对去除EST序列中的污染和提取cDNA inset具有重要作用。本文针对植物EST序列的载体识别问题,基于EST序列期望结构给出了EST序列的载体结构描述,由此结合K-前缀树全文搜索方法提出了基于K-前缀树的EST序列载体识别方法,其主要特点是基于EST序列载体结构来构建K-前缀树,并以K-前缀树进行K子串的匹配、扩展和合并。通过对172229条松树EST序列的载体识别,说明了基于K-前缀树的EST载体识别方法的可行性和有效性。
其他文献
聚乙烯(PE)管道系统在各个行业的应用越来越广泛,特别是PE管道在燃气输送和给水排水方面的快速发展,使得PE管道正在逐步的替代金属管道系统。PE管道的连接技术是PE管道系统应用中
随着多媒体数据如数字视频、图像、流媒体文件在Internet中的日渐流行,多媒体技术的日渐成熟及广泛应用催生了以多媒体数据为研究对象的网络信息安全研究,尤其是网络视频安全已
随着我国交通管理部门信息化程度的不断提高,系统各业务部门累积了大量异构的业务数据,针对如何更加高效地利用各个业务部门的数据信息,并能从这些海量数据中更加有效地提取信息
啤酒发酵过程是一种典型的具有大时滞性和时变不确定性的工业过程。一般控制方式在此过程中不能达到理想要求,因此设计出一种既方便可行又满足啤酒发酵过程温度控制要求的智能
由于我国煤矿开采条件复杂、自然灾害严重,煤炭企业生产力水平整体偏低、安全生产基础比较薄弱,煤炭企业生产与安全的矛盾突出,特大事故时有发生,煤矿仍是我国当前安全生产事
随着计算机技术以及三维成像的软硬件技术的迅猛发展,三维数字化技术愈来愈多地得到人们的关注和应用。三维数字化技术概括地说可以分为数据采集、表面网格重建和表面信息获
刚体的姿态控制属于控制领域中的热门问题,在航空航天工程、机器人控制、车辆工程等领域有着广泛的应用。刚体姿态控制系统性能的好坏直接关系到其通讯、测量、数据传输等任务
随着社会经济的发展以及各领域对安全的不断重视,对于身份认证的需求越发迫切。而基于人体固有的物理特征和行为特征作为认证信息的生物认证技术得到了广泛关注和应用,即通过
基于机器视觉的目标识别是一门复杂的学科,结合了数字图像处理、模式识别、机器人理论等学科,现已充分融入到了工业自动化、军事、国防以及医疗等领域。由于基于移动机器人的目
随着信息技术的发展,条码在许多领域中得到了广泛的应用,大大提高了各行业的生产工作效率。进入20世纪80年代以来,人们围绕如何提高条码符号的信息密度,展开了多项研究工作。与此