压缩全文索引的研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:mountaineer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文索引用于处理大文本集合,利用它人们可以在海量文本中快速获取需要的信息。现有的全文索引技术归纳起来通常有两种类型的方法:基于倒排索引的方法和基于后缀数组的方法。随着文本信息的爆炸式增长,现有的这些方法在空间消耗、查询速度或者灵活性上显得不足,因此,需要探索更好的方法来满足人们的需求。压缩全文索引研究的目的是,利用文本压缩技术和全文索引技术找到一种有效的方法,以相对较小的空间索引原文,支持灵活查询,甚至可以通过索引恢复原文,从而完全取代原文。本文实现了倒排索引和压缩后缀数组索引,并提出了二级压缩自索引方法。该方法由两层结构组成,分别是索引层和表示层。表示层是该索引的第二层结构,它以原始文本为输入,为单词构建编码,并将原文转换成两个序列,分别是词形序列和词干序列。索引层是该索引的第一层结构,它接收表示层输出的序列,通过对词干序列构建压缩自索引,为原文提供查询功能,并可与词形序列结合实现原文提取功能。本文提出了分层重排的编码方法用于表示层中词形序列的压缩。该方法是一种基于变长编码的压缩算法,不但能压缩该序列的大小,还支持序列的随机访问。实验结果表明,本文提出的二级压缩自索引可以有效的运用于全文索引领域,其性能显著优于倒排索引和后缀数组索引。
其他文献
伴随着网络上的信息急剧增长,人们为了在浩如烟海的信息中获取有用知识,对高效地获取信息的需求尤为迫切。在诸多技术中,信息检索技术通过不断发展和完善,越来越受到人们的重
在现实世界中,同一个实体可能被多个数据源中的记录所描述。实体解析的任务就是确定哪些记录描述着现实世界中的同一个实体。实体解析是数据集成和数据清理中的一个关键步骤,
云计算无疑是当前IT界最热门的话题,它不仅为IT资源的使用和管理带来革命性的创新,同时也让更多已有技术和新兴技术有了更宽广的应用前景。云计算引发计算机技术的迅猛发展,
近年来,关于在公共环境内多车式移动机器人协同运动规划课题的研究受到广泛关注,并应用到交通系统、军事、物流运输和社会生活等领域。在某些特殊应用背景下,车式移动机器人
现代密码学以很多数学工具为基础,格是现代密码学中极具吸引力的一种数学工具。基于格的密码研究近年来发展很快,现在几乎已经涉及了各种密码领域,如基本公钥加密、基本签名
各类Web2.0图片应用网站的兴起(比如Flickr),使得互联网上的图片急剧增多。为这些图片添加语义标签不仅有利于图片的组织管理,还可以提升视力残疾人对图片内容的无障碍访问。传统
随着能源互联网的发展,大规模可再生能源的不断并网,电力系统的网架结构越来越复杂、规模越来越大,不同区域的电网互联程度日趋紧密,电网的运行状态和运行方式也变得更加多样化,电网的安全稳定运行受到了严峻挑战。通过对近年来世界各地发生的多起大停电事故分析发现,准确地判定电网中能够引发连锁停电事故的脆弱线路和关键输电断面,对于保障电网安全稳定运行至关重要。为此,本课题从不良数据辨识、脆弱线路辨识和关键输电断
学位
随着计算机科学的发展,当前很多计算机研究领域都需要强大的计算能力对大规模数据进行分析。很多情况下,传统的单处理器串行程序难以在较短时间内解决问题,因此对基于多核处
随着多媒体技术的发展,互联网的不断普及,数字图像作为一种内容丰富,表现力强的信息储存方式被广泛应用,海量的数字图像也因此产生。如何快速准确的从数据库中找到用户所需要的图
IPv6协议的设计解决了困扰互联网发展的地址短缺问题,同时IPv6地址的安全性问题也备受关注。DHCPv6协议用来为主机动态分配IPv6地址和其他配置信息,但协议本身存在的缺陷使得