基于实体聚类的网络信息检索处理

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:a67987637
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。搜索引擎成为人们生活中获取信息的重要工具。虽然现在搜索引擎技术得到飞速发展和广泛应用,但是搜索引擎在使用中还是有很多不方便的地方,还有改进的必要。 在这种情况下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化服务都是一系列极具发展前景的应用。 尽管在搜索引擎中关于聚类的研究很多,但是由于聚类算法本身的一些缺点,其实际应用并不多。本文提出聚类技术在搜索引擎中作为一种辅助的方式存在,帮助用户重新组织检索出的网页。基于网络信息检索的特点,本文提出一种分两阶段进行的快速网页聚类策略。 在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K—means算法都是经常用到的,但它们都有各自的不足。在本文两阶段聚类方法中,第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K—Means聚类标题和文本摘要,取得了比较合理的聚类结果。由于标题一般都比较短,这样可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。 本文的主要贡献是:明确聚类在网络信息检索中应该起到的辅助作用,并提出了一个新的实现方法。
其他文献
众所周知,UML是半形式化的。Petri网虽然是形式化的工具但本身又有不便于应用的缺点。所以论文的目的是把UML活动图模型转换为PNML,以便能够用Petri网分析工具来分析UML所描
说话人识别以其独特的方便性、经济性和准确性等优势在公安、司法、声控以及军事等领域有着广阔的应用前景。如何从大量的语音数据中提取反映说话人个性特征的语音参数和设计
随着移动通信技术的快速发展,人们对基于位置服务(Location Based Service, LBS)的定位精度要求越来越高。由于GPS,A-GPS等常用定位技术在城市环境中存在各种问题和不足,以及
指纹识别因为其悠久的历史以及较高的识别精确度,成为了目前最成熟的生物特征识别技术之一,并被广泛的应用到各个领域当中。在大型的指纹数据库中,待识别指纹与样本数据库中
与时间相关的数据库应用需求的不断增长,使得时态数据库设计成为非常重要的问题。在数据库的设计中,要充分考虑对数据依赖的处理,数据依赖是指数据之间存在的各种联系,数据冗
词袋(Bag of words,简称Bow)模型最早应用于文本文档的分类领域中,近年来,随着对词袋模型的进一步研究,以及模型本身具有简单有效的特点,使得模型得到了更加广泛的应用,并且
介质访问控制(Medium Access Control,MAC)协议是Ad Hoc网络协议体系结构中的重要组成部分,主要用于协调节点访问共享信道,MAC协议能否高效地利用有限的无线资源对Ad Hoc网络
大规模地形场景实时绘制技术在地理信息系统、虚拟战场以及三维游戏中有非常重要的应用,一直是国内外研究的热点。在GPU出现之前,大规模地形绘制的研究主要集中在对地形的裁减
P2P(peer-to-peer)技术作为Internet的重要技术之一,近些年来受到了计算机业界越来越多的关注。由于P2P具有大规模性、动态性、分布性等特点,在这种环境中如何有效的查询资源
数据挖掘是一个包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域的新兴技术。信息