【摘 要】
:
全文检索系统支持快速从海量文本数据中检索信息,具有重要的应用价值。全文索引模型是全文检索系统的核心,它决定了全文检索系统的功能与性能。全文索引模型设计为全文检索研
论文部分内容阅读
全文检索系统支持快速从海量文本数据中检索信息,具有重要的应用价值。全文索引模型是全文检索系统的核心,它决定了全文检索系统的功能与性能。全文索引模型设计为全文检索研究领域的一个重要课题。全文索引模型性能评价指标包括索引查询时间、索引构造时间和索引存储空间;功能评价指标包括自索引、排序查询、短语查询和词边界未确定语言适应性。倒排索引模型查询速度快、存储空间小,可以提供排序查询功能但是不能快速的支持短语查询,不能很好适应中文等词边界未确定语言。后缀树和后缀数组索引模型支持短语查询与自索引功能并且对词边界未确定语言有很好适应性但是不支持排序查询。ST-PL和CII索引模型结合后缀树索引和倒排索引的优点。本文提出了SA-PL索引模型,该模型利用后缀数组可以支持短语查询、自索引和词边界未确定语言适应性且与后缀树相比存储空间小的特点,将后缀数组与倒排表相结合。该模型在提供与ST-PL和CII相同功能的前提下提高查询速度、减少存储空间。根据SA-PL索引模型概念,设计了SA-PL-0索引模型。在SA-PL-0的基础上提出一种通过移除较短倒排表对索引空间进一步压缩的索引模型SA-PL-1。论文实现了SA-PL-0、SA-PL-1、ST-PL和CⅡ索引模型。实验表明,SA-PL-0和SA-PL-1索引模型可以提供排序查询、短语查询和自索引功能并且对词边界未确定语言有很好适应性,其索引存储空间和索引查询时间综合性能显著优于ST-PL和CⅡ索引模型。SA-PL-1索引模型优于其他模型。
其他文献
隐蔽信道的研究是信息安全领域的一个重要课题。网络时间式隐蔽信道是众多隐蔽信道中的一种,它将网络中的正常协议包作为构造自身通信信道的资源,能够在不同安全级别的主机和
国际电信联盟做了一个调查研究,调查结果显示中国移动终端用户群体的数目居世界之首。在当下,3G网络技术已经在国内得到广泛的推广,并向着4G网络时代迈进,移动终端设备已经得
图像分割对感兴趣的目标区域进行边缘检测和提取,其提供的结果将直接影响到对目标图像的特征分析和理解,对后续工作有重要而深远的意义。但真实图像往往呈现出噪声大、边界模糊
人工蜂群算法是一种新型的元启发式搜索算法,它的实现原理是模拟蜂群在采蜜过程中所表现出的群智能行为来实现对实际问题的求解。由于该算法简单易懂、容易实现、鲁棒性强、
我国高速铁路发展迅速。作为快捷的交通工具,高速动车组得到了广泛的运用,其安全运行和维修工作变得越来越重要。我国借助先进的数据采集设备和计算机存储技术,随着时间的推移,产
随着Web2.0时代的兴起,互联网上的用户和商品呈现了爆炸式的增长态势,互联网的快速渗透带来了海量的数据信息,而海量数据的产生使得用户无法在短时间内准确及时地获取所需的
作为社交网络的一种,论文合作网络由两个作者合作发表一篇论文的这种专业的关系组成。而社交网络的链接预测是一个重要的问题,其现实意义可以理解为给网络中的节点推荐好友节
高光谱遥感由于其较高空间分辨率和光谱分辨率的特点,被广泛应用于地球科学的各个领域。在整个高光谱图像处理流程中,混合像元分解技术是其关键环节和研究热点。但现有混合像元分解算法执行效率低,无法满足大数据量遥感图像的实时处理需求,而GPU/CUDA架构能够为算法提供接近计算机集群的高计算能力,利用GPU高并行处理能力和高存储带宽的优势来提高混合像元分解算法的执行效率是一种有效的研究思路。针对上述科学问题
移动机器人运动规划技术是自主移动机器人导航的核心技术之一,而路径规划技术是导航技术研究的一个关键课题。路径规划的任务是:依据一定的评价准则(如距离最短、时间最短、工
随着科学技术,特别是电子技术和计算机技术的发展,医学图像的采集和处理技术有了长足的发展。在此同时,也涌现出了许许多多的医学图像增强技术。医学图像是现代医疗诊断和医学研