基于聚类分析的潜在语义文献检索

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:a176305712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统文献检索算法将用户查询关键词集与系统数据库存文献关键词集进行匹配,然后根据匹配程度的大小检测文献。实践证明,此方法存在一些不足。其一,词语具有多义性,很难确定文献中该关键词表达的具体含义是否符合检索内容。其二,多词一意,即文章的主题可以由不同关键词构成。因此,严格匹配可能会丢失大量相关文献。鉴于以上问题,LSA即语义分析法(Latent Semantic Analysis)在相似文献的检索中能取得较好的效果。LSA认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文献主题。LSA基于数学理论和计算机技术的结合,通过大量文献集的词频分析,建立关于关键词和文献的词汇-文献矩阵。然后通过奇异值分解,最终分解成词汇矩阵,起连接作用的对角矩阵,以及文献矩阵的乘积。因此,即使查询词关键词不在文献关键词集内,只要其主要内容和文献一致,也可以通过与语义分解后的文献向量进行相似度运算,进而检索出相关文献。本文在研究LSA产生背景以及基本原理及应用的基础上,着重讨论了从查询关键词集出发,对相关文献链建立的方法。文献关系链的建立依赖于相同关键词在不同文献中出现的频率。显然两篇不同文献中相同的关键词越多,这两篇文献就越具有相关性。通过寻找相关文献,对文献中的众多关键词取并集,进而获得更多的关键词,即所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集,获得1级高质量关键词。然后通过一级高质量关键词不停地做循环搜索,进而获得2级,3级,…,n级索引扩展关键词集,以及更多的相似文献集。根据索引扩展关键词集以及文献集建立词汇-文献矩阵,并将其进行奇异值分解,分解成三个矩阵的乘积,其中中间的矩阵为对角阵,对角元素按照奇异值由大到小的顺序排列,其值反映了对原矩阵作用的大小。按照奇异值变化率选定某链接关系度阈值,并依据阈值对分解后的三个矩阵进行截取压缩处理。然后对压缩后的文献矩阵中的列向量进行k均值聚类,形成k类的文献列向量簇,以及k个簇类中心点。根据用户偏好,选取感兴趣的索引扩展关键词作为查询词集,并将其对k个聚类中心点做相似运算。选择相似度高的簇内中心点,并对其内文献向量进行同样相似运算,最终依据相似程度输出文献。
其他文献
轨道方法对表示论中许多困难(遗留)问题的突破有重要作用。在余伴随轨道研究中,有一个基本的结果:对一般线性李代数gl(G),它的子代数的对偶空间可以实现为gl(G)的某个子空间。本文
生活,就是在不断地继续过去,创造未来,我们继承着传统的精髓,却也要发扬个性的独特,于是我们听到这样一句话“Do It Yourself”,是时候—— DIY,英文Do It Yourself的缩写,自
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
日本京都先进通信研究实验室 (TAR)的研究人员提出一种新的“混沌反射镜”,可能会形成新的自由空间光通信方法的基础。这种 7面形的腔式反射镜正由该室的自适应通信研究实验
A series of unconfined compression tests (UCTs) were conducted to investigate the effects of content of reactive magnesia (MgO) and carbonation time on the engi
偏微分方程(组)广泛应用于大气物理、天体物理、燃烧与爆炸理论、航空与航天、惯性约束聚变、石油勘探等众多领域.本文研究的欧拉方程组和辐射扩散方程组具有很强的物理意义,是
中国共产党历来重视反腐败斗争,分别在革命、建设和改革开放中形成了三次反腐倡廉高潮,积累了宝贵的历史经验,为我党深入开展反腐败斗争提供了有益的启示。 The CPC has alw
图像分割是从图像处理到图像分析的一个关键技术。图像分割是指把图像区域分成各具特性的区域,并提取出感兴趣目标的过程。近年来,偏微分方程的分割方法得到了国内外学者的广泛
本文研究非正规子群的核对有限p群结构的影响。分类了所有非正规子群的核均同阶的有限p群以及所有非正规交换子群的核均同阶的有限p群,在某些情况下,分类了每个非正规子群的核
法国格勒诺布尔市 CSO测量公司的研究人员已发展一种作为干涉测量系统参照源使用的高频稳定激光源 ,该干涉测量系统是巴黎国家气象研究空间中心 (CNES)投资的红外大气探测干