后缀数组相关论文
移动互联网的普及和发展给人们生活的各个方面带来了很大的便利,但是与此同时,为了使用这些便利的功能,人们需要通过互联网传输大......
模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的......
近年来,随着云计算技术和云存储服务的快速发展,越来越多的用户选择将数据外包给公开的云服务器。然而,公开的云服务器作为第三方......
字符串模式匹配是计算机研究领域的一个经典问题,是众多网络安全系统中的关键技术。随着信息时代的硬件技术和网络技术的发展,大数据......
要提高基于后缀数组的串匹配算法的性能,关键在于如何快速地构造后缀数组.以往的分布式算法在构造后缀数组时都是先对所有的后缀进......
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,垃圾邮件不仅给网民,企业和服务提供商带来巨大......
基于串联质谱技术的蛋白质鉴定已经成为蛋白质组学的主流技术,而数据库搜索已经成为鉴定串联质谱数据最常见的方法之一。目前已经有......
分布式全文检索技术是信息处理领域的核心技术之一,目前被广泛应用于竞争情报、信息检索、搜索引擎以及信息过滤等领域。对高效分布......
搜索引擎(Search Elngine)是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术。作为互联网上最主要的信息搜索工具,搜索引......
自第一个使用鸟枪法成功地完成流感嗜血杆菌完整的基因组测序以来,基因组被完全测序的物种数量每年都在飞速增长。当两个非常相近......
目前许多信息都以文本的形式存放在计算机中,所以基于文本的信息检索技术,如最长公共子串匹配问题一直是文本管理、程序分析等领域......
随着“信息爆炸时代”的来临,如何更快、更准、更方便的搜寻到数据已经成为了当代社会关注的焦点。在这种需求的刺激下,搜索引擎技术......
后缀数组构造算法是建立大文本全文索引最主要的方法之一,在网络Web搜索以及生物信息学(基因数据库)等领域,有极其重要的应用。由于......
XML目前已经成为Internet上的“国际语言”,所以,如何使数据库管理系统对XML文件进行良好的支持就成为了当前的研究热点。本文讨论......
模式匹配问题是计算机科学的一个基本问题。在早期的模式匹配研究中,多数算法集中于精确模式匹配的研究,如:著名的单模式匹配算法K......
多基因组序列比对是现代生物信息学研究领域非常重要的核心问题。为了能够比对多种近亲物种之间的多条基因组序列,我们迫切需要一......
LZ77算法,又被称为“滑动窗口压缩”,它依赖两个滑动窗口来进行压缩,一个窗口包含已输入数据流,称为字典窗口DW(dictionary window);另......
克隆代码是指软件中相同或相似的源代码段,其在软件开发与维护中具有重要的影响。近十年来,克隆代码的检测已成为软件维护中的一项重......
近年来,由于基因组数据呈指数级增长产生了海量的数据,导致现代存储技术也无法满足数据集的存储需求。因此对于数据的传输、存储形......
信息化时代,数据量的激增给我们带来了机遇也带来了信息存储及检索的挑战。字符串匹配是信息检索最基本的操作,解决该问题的常用方......
随着基因测序技术的发展,人类每天可以获得大量的生物序列数据。生物信息学中的一个重要课题是对序列片段表现出的模式特征进行识......
字符串模式匹配是计算机研究领域的一个经典问题,是众多网络安全系统中的关键技术。随着信息时代的硬件技术和网络技术的发展,大......
自然语言处理(NLP)是语言学和人工智能的一个交叉域,它研究人类自然语言的自动化产生和理解的问题,对于汉语来说,它涉及自动分词、......
Internet的飞速发展和膨胀使得人们依靠网络来寻找所需的信息变得越来越难,由此也促成了网络搜索引擎的出现和不断进步。仅仅十几年......
随着中国民航事业的迅速发展和国家间交往的日益增多,学习和借鉴国外的先进技术与管理手段,是实现民航强国的重要举措之一。鉴于对......
随着人类基因组计划和一些生物全基因组序列测定的完成,微阵列技术飞速发展,基因芯片以其高通量、微型化和自动化等优点成为医学基因......
【摘要】后缀数组是处理字符串的有力工具。利用后缀数组解决字符串问题,无论是在时间复杂度和空间复杂度上,都非常有优势,在信息学竞......
摘要:模体发现在揭示基因组水平上的基因表达调控规律以及在蛋白质序列中定位保守结构域中起着重要作用。本文提出一种在生物序列中......
通过对目前处于研究发展阶段的后缀数组技术与倒排索引技术的简单介绍,并对两者的优缺点进行了对比,对维、哈、柯文搜索引擎的索引......
为了提高检测效率,提出了一种新的函数克隆检测方法。该方法对传统后缀数组进行了改进,优化了基于后缀数组的算法。利用该算法可高效......
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的......
后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核......
为了提高检测效率,提出了一种新的函数克隆检测方法。该方法对传统后缀数组进行了改进,优化了基于后缀数组的算法。利用该算法可高......
针对元搜索引擎给出了一个元搜索引擎处理结果中的两种核心算法,通过元搜索引擎向用户提供统一的访问服务,以提高检索的有效性、查......
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词......
贝叶斯算法在垃圾邮件过滤中应用广泛,但在中文垃圾邮件过滤中性能较低。本文通过聚类的思想,提出一种基于后缀数组聚类(SAC)的中文邮......
重复短语识别是网页文本的特征抽取过程中的关键性技术之一,通过重复短语的识别能够有效地解决网页文本内容特征抽取的难题.研究利......
在搜索技术和各种流行的排序算法优缺点比较的基础上,给出了一种基于后缀数组的新的快速排序算法,该算法在时间和空间性能上均优于传......
为了提高在海量的信息中进行多重复模式查找算法的效率,提出了算法Epattern_searcher.该算法运用过滤算法的思想而设计,同时又采用......
采用适当的划分机制,将序列的后缀划分为若干组,在并行机群中独立对每组进行序列最大串联重复识别,从而得到完整序列的最大串联重......
全文索引技术(gull-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现......
近似字符串匹配是模式匹配研究领域中的一个重要研究方向。压缩后缀数组是字符串匹配、数据压缩等领域广泛使用的索引结构,具有检......
演变图中含有大量的时间和空间信息,其中某些空间信息随着时间的推移表现出相似的演变规律。给出了一种演变图查询模型,可以挖掘出......
搜索引擎(Search Engine)技术是在网络数据成指数级增加的情况下出现的新技术。然而现在的搜索引擎在检索时都采用的是倒排文件,从后......
非编码区信息结构分析是目前生物信息学研究的热点之一。运用DC3算法构建的后缀数组以及最长公共前缀(LCP)作为辅助工具构造一个算法......