基于向量空间模型的文本相似度算法研究

被引量 : 0次 | 上传用户:hufeng274240003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展以及互联网技术的快速变革,如何对各式各样的文本进行相似度计算成为了研究的热点与难点。目前,文本相似度计算技术被广泛应用于文本数据挖掘、文本分类、信息检索、信息过滤、机器翻译、文本查重等领域,各种关于这些领域中的文本相似度研究也如火如荼的进行着。对文本相似度的研究主要是从提高查准率、查找速度等方面进行,目前已有诸如布尔模型、概率模型、向量空间模型等文本表示模型,相似度度量及距离度量等相似度计算方法,也有关于文本分词及语义等方面的研究。这些技术应用较为广泛,但在效率及性能等方面还存在一些无法忽视的问题,比如本文的研究重点向量空间模型,该模型存在无法表现特征项的出现顺序、向量维度高、计算效率低等问题,这些问题都需要我们进行研究与改进。本文对文本相似度计算相关技术进行研究,并针对传统向量空间模型在文本相似度计算时,无法体现特征项在不同位置的特殊文本表现能力的问题,研究了其改进模型:文本段向量空间模型。并针对文本段向量模型在对类似表格结构的文本进行相似度计算时,因对各文本段进行一致处理而导致查准率不理想的问题,提出了自主加权文本段向量空间模型。针对传统向量空间模型在文本相似度计算时,因向量维度高而导致计算效率低的问题,提出了两种非零权值向量空间模型:非零权值并集向量空间模型、非零权值基准向量空间模型,这两种模型分别适用于不同的应用环境。最后,以上述理论为基础,设计并实现了文本过滤系统,并通过该系统对本文中提出的三种改进模型进行了实验。实验结果表明自主加权文本段向量空间模型在提高查准率及计算效率方面是可行且有效的,两种非零权值向量空间模型在降低计算维度及提高计算效率方面是可行且有效的。
其他文献
倾力“两改”,实现“同价” 1 998年党中央、国务院决定在全国开展“两改一同价”工作,这对于加快县级农村电力事业的发展、促进县供电企业持续发展 Qingli “two reforms
在视觉文化的大语境下,对图像的研究方兴未艾,中国当代艺术家们不约而同遴选了具备传统东方意味的图像元素作为创作的母题,将山与水、花鸟与松竹、园林木石等传统图式做全新
草图是一种画图形式,在数学教学中更是一种重要的解题策略。草图策略是指根据数学信息和问题画出相应的图形来帮助审题、理解题意和分析数量关系,从而使复杂的问题变得简单,
分析了风景名胜区规划作为风景名胜区工作的重要依据和行动纲领,从做好风景名胜区保护、利用和管理工作等方面探讨了保护培育规划,针对风景资源保护的专项规划,在多次实地考
目的探讨舒芬太尼与罗哌卡因在乳腺癌保乳术中的临床麻醉效果。方法接收在我院进行乳腺癌保乳术的患者一共有92例,随机分为研究组、对照组,对照组对患者采取舒芬太尼进行复合
微通道内气泡流的流型演变和流体动力学特性对微通道热管的强化传热、微化工领域液滴控制等方面具有重要意义。本文使用前沿追踪法(Front Tracking Method,FTM)对微通道内气
<正>青年教师的专业发展离不开个人的教育自觉,青年教师教育自觉的养成离不开学校这方沃土,积极向上的氛围更能唤醒青年教师的教育自觉。要唤醒青年教师的教育自觉,增强青年
从历史文献和墓葬出土文物看,可以肯定华南是中国植棉最早的地区。中国棉花是自南向北发展的。长江中下游开始植棉比华南约迟一千多年。北传迟的原因是:北方麻和丝织品发展很
指出了随着蓝色经济的提出,海洋资源的可持续利用越来越受到重视。青岛市作为中国重要的经济中心城市和沿海开放城市,拥有丰富的海洋旅游资源,发展海洋生态旅游是实现海洋资
本文主要采用文献资料法、逻辑分析法等,从人力资本理论的视角分析体育大学生的就业状况,认为体育专业大学生人力资本价值投入不足、供求失衡、产权地位缺乏保障是导致体育专