支持多语言标签优先的元搜索引擎结果聚类研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:q_yong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的爆炸式增长,作为信息检索工具的搜索引擎得到了广泛的研究和应用。据研究单个搜索引擎能找到的相关信息通常不超过互联网上所有相关信息的45%。另外,虽然现有的搜索引擎采用了多种技术来提高信息检索的准确度,但以线性列表形式展现搜索结果的方法,使查询相关文档和不相关文档相互混合,给用户定位真正需要的信息带来了极大的负担。论文研究了如何构建一个的高性能的分布式的个性化元搜索引擎,并在此基础上对搜索结果进行聚类以便减少用户定位信息的时间。通过将各个搜索引擎的结果进行合成,我们可以为用户提供更加全面的信息。通过聚类,把搜索结果组织成树状层次结构,使得同一类别中的数据相关性尽可能高,不同类别间的数据的相关性尽可能低。在聚类过程中,我们基于全局数据优先生成聚类的标签名,从而使得类标签对用户可读性更好,缩小用户定位信息的范围提高检索的命中率,从而缩短用户定位数据的时间。实验数据表明,本文算法生成的类标签可读性优于其他算法,而且搜索结果从数量和准确性方面都优于其他算法。与其他搜索结果聚类不同,本文提出了一种支持多语言标签优先的聚类算法,我们将其称之为DCFC算法。该算法支持中文和英文,并且重点关注生成类标签对人的可读性,类别以层次结构展现。系统提供了一些参数来让用户控调整系统的运行结果:用户可以通过标签的长度,搜索结果中含有的数据条数等对搜索结果进行调整。DCFC算法主要有五个步骤:数据预处理、分词、频繁短语的生成、多层的类标签的生成、将数据归到相应的类下。我们通过JAVA实现了该元搜索引擎搜索结果聚类系统,该系统主要包括两大部分:一部分是高性能的分布式的个性化元搜索引擎,另一部分是DCFC聚类。通过比较DCFC聚类与其他搜索引擎聚类算法,主要有LINGO、VIVISIMO、QUINTURA,实验结果表明DCFC算法是有效的。
其他文献
在金融领域,风险管理是一个永恒的话题。金融风险管理既是金融机构自身经营特点的要求,也是经济稳定发展的要求。银行作为最主要的金融机构,发挥了举足轻重的作用,而风险管理
随着数据采集技术、计算机硬件以及软件的发展,数字多媒体数据在经历—维声音、二维图像、二维视频为表现形式之后,出现了第四代数字多媒体形式---三维数字几何模型。由于其
随着统计方法在自然语言处理中的广泛应用,双语语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可,尤其在机器翻译、跨语言信息检索和双语术语翻译等领域具有
无线传感器网络是由大量通过无线方式传输、资源有限的传感器节点组成的新型通信网络,它通常被部署在各种自然环境中,负责监测环境,收集环境中的各种信息,以提供给数据中心进行处
由于目前协议的设计越来越复杂以及网络安全问题日益严重,协议测试技术已经成为协议实现过程中的一个必需且十分重要的手段。对WLAN安全协议进行测试的重点在于一致性和安全性
未来宽带无线通信能够实现随时随地的宽带信息交流,并且能够提供高质量、高可靠性、高传输速率的移动通信服务。随着用户对移动通信的要求不断提高,宽带无线接入系统(Broadband
随着互联网的飞速发展,新型的对等网络应用模式已经在许多领域开始取代客户机/服务器模式。学术界和产业界对于对等覆盖网络均进行了很多的研究工作。目前,大量的研究着眼于某
虚拟现实技术应用于体育训练可以有效提高运动员的科学训练水平和运动竞技水平。现代体育需要科学技术的不断介入,采用系统量化的方法对体育运动的内在规律进行研究。本文运
近年来,随着物联网概念的提出以及相关研究应用工作的展开,物联网这一新生事物正逐渐成为继互联网以来又一个IT热点。传感网是物联网的重要组成部分,也是过去信息化建设中比
随着信息科技的快速发展,用户的需求不断增加,人们已经很难满足于坐在电脑面前获取信息与资源。用户的交互方式呈现出多样化的趋势,大量的社会性软件拓展到移动平台成为移动