基于自组织特征映射的检索结果聚类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:airfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前主流的搜索引擎都基于关键词匹配,当查询词很短时往往有大量包含查询词却实际并不相关的网页被返回。而采用有序列表方式来呈示检索结果,使得不同主题的网页混杂一起,用户不得不再次从几千甚至上万的检索结果中人工定位需要的信息。检索结果聚类技术致力于实时地将检索结果按主题整理成若干类别,并赋予每个类别一个准确可读的标签。用户可以根据标签直接定位真正感兴趣的结果集,还可以根据其它类别标签更好地了解查询词,必要时重新构造更准确的查询词等。相比一般文本聚类算法,检索结果聚类有着文本信息不全、计算速度快、类别描述准确等特殊要求。对此,本文提出了一种基于自组织特征映射(SOM)的聚类算法,该算法将SOM与潜在语义索引技术(LSI)有机地结合。利用LSI将待聚类文本及特征词表示于同一低维语义空间,然后将重新表示的文本用于SOM训练,将重新表示的特征词用于神经元标签计算,并在综合考察神经元权值和标签的基础上进行神经元合并最终形成带有准确标签描述的聚类结果。考虑到不同检索结果集类别个数差异可能较大,我们还对SOM进行了改进,使其从一个较小的网络开始,动态地增长到合适大小。神经元权值向量接近于映射于其上的文档集质心,因此当SOM神经元个数小于所要表示的类别数目时,神经元与样本的偏差之和即量化误差会偏大。据此可以确定何时需要增加神经元。LSI与SOM结合的主要优点在于减少噪声以提高聚类质量,降低维数以加快训练,并提供了一种新的标签抽取和类别生成方法。实验结果表明,我们的算法从聚类质量以及标签质量上与前人工作均有了较大改进。
其他文献
互联网的快速发展使得 IP地址资源日渐枯竭。将IPv4地址空间升级为IPv6地址空间可以从根本上扩充地址空间,但还需要大量的升级换代工作;而另一途径是使用NAT(Network Address Tr
随着经济的发展,项目管理变得越来越重要。项目调度作为项目管理的重要组成部分,具有网络结构特点,各个项目成员分布在网络的节点上,负责整个项目的一项或几项工作,拥有各自的资源
协同过滤推荐算法作为推荐系统领域最成功的算法之一,为解决互联网时代信息过载问题发挥了重要作用。协同过滤推荐算法依据用户对项目的历史评分记录等偏好信息,通过计算用户
数据挖掘是一种高级的数据分析工具,通过分析所观察的数据集以发现可信的数据间的未知关系,并提供给数据拥有者可理解的、新颖的和有用的归纳数据。关联规则挖掘用于寻找给定
人工神经网络,又简称神经网络,是以生物神经网络的功能结构为基础而抽象出来的一种用于实现人工智能的数学模型。它是基于神经科学研究成果而提出的一种自适应、非线性处理系
Web服务是一种设计用来支持异构系统中的软件应用可以互相操作的技术,维基百科将Web服务定义为“一种服务导向架构的技术,通过标准的Web协议提供服务,目的是保证不同平台的应
无线视频传感器网络是由一组具有计算、存储和通信能力的视频传感器节点组成的分布式感知网络。无线视频传感器网络可以使人们在任何时间、地点和任何环境下获取大量信息,为野
近年来,以深度学习为代表的自动编码器表示学习在机器学习预测和识别领域取得了显著的成就。在现阶段以自动编码器为基础的表示学习研究中,大部分学习采用两阶段的学习框架,
现有Web上的资源不能由机器做出准确的语义识别。为了探索解决的方法,本文以在计算机教学领域的应用研究为例,对基于本体的试卷自动生成系统的体系结构进行了设计,并对其中的
油气储层随机建模是八十年代后期兴起的一项油藏描述高新技术.它是适应油气田开发的深入,应用先进的二次采油和三次采油技术,进一步提高油气采收率的需求应运而生的。而利用多