大规模中文文本检索中的高性能索引研究

来源 :中国科学院计算技术研究所 | 被引量 : 5次 | 上传用户:z4360877
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的不断增长和日益更新,检索系统,特别是中文文本检索系统,正在受到人们越来越多的关注。索引是检索系统必不可少的组成部分,是检索系统提供快速查询服务的关键。倒排文件是大规模检索系统最常用的索引形式。然而,通常情况下,索引的构建,即倒排文件的生成,是一个非常耗时的过程。为了适应大规模的文本检索任务,有必要研究加快构建索引的手段。通过对索引过程的各个阶段进行分析,本文指出,通常的索引算法效率不高的主要原因有二:1)CPU和I/O部件相互等待,使得系统资源的利用率不高;2)文档分析阶段是整个索引过程中的瓶颈,特别的,对中文文本而言,分词是主要的开销之一。针对第一个问题,本文在串行的索引流程中引入流水线结构,提高了资源部件的并行程度,进而缩短倒排文件的生成时间;在此基础上,文中还比较了流水线结构在不同参数下的性能差异。针对第二个问题,可以采用优化的词典结构,以加快中文的分词速度,从而达到减少分析阶段时间开销的目的;在比较了几种常见的词典结构之后,文中指出,基于双数组Trie树的词典结构是加快索引速度的有效手段。实验表明,综合使用以上两种方法,可以使索引的速度提高25%。具体的,我们对中文TXT文件的最快索引速度可达2.5M字节/秒。
其他文献
提取图像的特征在计算机图形学、计算机视觉、模式识别、测绘领域、人工智能等方面具有非常重要的意义。目前,图象特征提取已成为非常活跃的研究领域。 在模式识别系统中,
网格是一种新兴的资源共享技术,它利用现有的网络基础设施、协议规范、Web和数据库技术,为用户提供一体化的智能信息平台,其目标是创建一种架构在OS和Web之上的基于Internet
本文对数据挖掘技术尤其是关联规则挖掘技术进行了系统、深入地分析和研究,并将其投入到实际应用中。主要包括以下一些内容:首先对数据挖掘技术进行了简要的回顾,在提出数据挖掘
我国是一个传统的纺织大国,但是我们所广泛采用的纺织设备还停留在国际上八、九十年代的水平,设备技术非常落后。为改变这种落后状况,有效途径之一就是对已有的纺织机械设备
随着计算机技术和网络技术的迅速发展,GIS已进入一个全新的三维网络时代,它的应用领域日益广泛。人们现在对基于网络的地理信息(WebGIS)三维可视化的要求也比以往任何时候都
本文对基于EAP-SIM的无线城域网身份认证机制进行了研究,根据WiMAX网络结构的特点,提出了在WiMAX网络中的基于EAP-SIM身份认证机制的设计方案。文章分析了当用户接入网络时所经
本文首先研究了WSN中影响数据传输可靠性的主要因素,分析了已有协议的解决方法和存在的不足之处,并提出了本协议的设计目标。其次,设计了无线传感器网络可靠数据传输协议RTP
XML正迅速成为Web上数据表示和数据交换的标准。作为自描述的标记语言,XML能够根据具体应用灵活地表现异构数据源中的各种信息,包括应用程序之间的数据交换、结构化和半结构
本文在蛋白质折叠的三个方面做了一些初步的研究.第一是要找到表示蛋白质三维组态的模型.第二是根据已建立的模型设计出模拟蛋白质折叠过程与预测蛋白质三维空间结构的算法.
计算技术、通信技术、传感技术等新科技的飞速发展,使普适计算(pervasivecomputing)正在成为现实.普适计算的目的在于使计算从人的"视野"中消失,但又使计算"以人为本"地提供