改进向量空间模型下的文本检索算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:langzi229229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展使信息资源的过度膨胀和用户查询的多样化需求逐渐成为一种不可缓解的矛盾,各种信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引了大量的研究人员对其进行研究。其中TF-IDF权重度量方法和文本排序算法是向量空间模型中最集中研究的方向,但TF-IDF方法在应用过程中忽略了文本长度因素,文本排序算法也没有考虑文本间的相关性,从而影响了文本检索的准确率。  本文从文本长度和文本重要性度量两个角度出发,分别对TF-IDF方法和文本排序方式进行研究改进,提出了一种基于改进向量空间模型的文本检索算法。该算法采用基于文本长度的TF-IDF方法计算特征项权重,并结合文本重要性对检索结果进行排序,大大提高了文本检索算法的查准率。  本文主要工作如下:  ①分析了信息检索和文本检索的出现背景及文本检索技术近几年的研究现状,简要介绍了工具包Lucene的系统结构、索引和检索机制、分词机制等相关技术,重点介绍了向量空间模型及TF-IDF词项权重度量方法。  ②基于文本长度对文本检索效果影响的研究,分别引入相对词项频率和长度标准化因子,对传统的TF权重方法加以改进后,结合已有的IDF方法,提出了新的权重计算方法——NTF-IDF(New TF and IDF)算法。  ③为有效改善检索结果的排序问题,将PageRank算法中的链接分析技术的思想引入至文本排序中,提出用于计算文本重要性的TextRank算法,然后将TextRank算法应用至检索结果的排序中。  ④采用Reuters-21578数据集的ApteMod版本,通过实验对提出的NTF-IDF权重计算方法和TextRank算法进行评估,验证其合理性和有效性。  实验结果表明,相对传统的TF-IDF方法和其它文献提出的改进算法,NTF-IDF方法在文本检索准确率上有一定程度的提高;同时TextRank算法可有效改善文本检索结果列表的排序。
其他文献
在对土壤-植物-大气连续体(SPAC)系统的研究中,土壤植物系统是一个重要的子系统。植物根系的研究又是土壤植物系统研究的重中之重。从生物角度讲,植物根系能直接反映植物的生长状
随着大数据时代的到来,对大数据的挖掘、分析、可视化已经成为当今时代的迫切需求。数据可视化综合运用计算机图形学、图像处理、人机交互等技术,以图形图像的方式表现和传达数
面向移动终端的复杂三维场景实时交互技术是计算机图形学与虚拟现实的热点之一,但是现有的手段仍不能满足终端上复杂三维场景的高真实渲染的实时应用要求。为了解决手持终端上
社会化推荐系统随着社交网络平台的流行以及用户对社交媒体的重度参与,成为了社交平台中信息过滤的重要手段,广泛地应用于各样的社交平台及电子商务领域中,成为当前推荐系统研究
热点话题是在具体时间段内发生的,能够引起人们广泛关注的不同领域中的话题。微博热点话题是以微博为应用平台的热点话题。微博是以用户关系为基础进行信息分享和传播的平台,具
即时通信对互联网发展至关重要,应用很广泛,极大方便了人们的生活。基于P2P技术的即时通信系统成为研究的热点,传统的即时通信工具大多数协议标准不统一,难以定制和集成到开发者
准确的烧伤程度评估,是治疗烧伤患者过程中十分关键的一步。烧伤区域体表面积,是评价烧伤程度的主要依据。及时、准确的烧伤区域体表面积估测,是为病人提供正确输液量,以及确
传感器节点大多部署在环境较恶劣或者是敌对等地方,且没有身份验证中心,所以很容易被敌人捕获,从而可以看出无线传感器网络的安全问题是十分重要的。大多数已有的密钥管理方案不
无线传感器网络作为资源严重受限的网络系统,路由协议的设计对网络生命期等性能指标影响巨大。同时,由于传感器节点大部分能量消耗在数据传输过程中,如果在数据转发之前首先进行
目前,世界正处在经济全球化与信息技术高速发展的时代,汽车产业也随之爆发式增长,汽车正越来越成为大众消费品。与此同时,越来越多的交通阻塞、交通违规、交通事故等问题使得交通