基于群体特性的搜索方法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:liouxing1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的普及和应用十分迅速,已成为人们获取信息和知识的重要途径。互联网体系结构具有开放、异构和分布式等特点,互联网上的信息具有海量、冗余、更新快等特点。搜索引擎是人们获取网络信息的有效途径,伴随着互联网和人们信息需求的发展,如何在互联网上获取有价值的信息还是存在很大困难。一般情况下,不同搜索用户的搜索意图和信息需求是不相同的,具有一定的特定性和互异性。传统的搜索技术中没有考虑信息需求的差异性,相同的搜索关键词,返回一样的结果,搜索准确度较差,不能满足人们的信息需求。对用户兴趣特性建立用户兴趣模型,在搜索引擎中引入用户兴趣模型,能够达到提高搜索准确度的目的。针对传统搜索引擎系统的局限性,人们信息需求的特性,本文进行了基于群体特性用户兴趣模型的搜索引擎技术研究。主要研究工作有以下几个方面:(1)分析研究通用搜索引擎的原理、结构和组成,以及发展现状,重点对存在的问题进行了深入分析,为后面的研究奠定了基础。(2)构建了基于群体特性的用户兴趣模型,设计了基于用户兴趣模型的搜索引擎体系框架。对用户兴趣模型进行了重点研究,研究了用户兴趣模型的表示和建立技术。在分析改进模糊ISODATA算法等文本聚类算法的基础上,提出了用户兴趣模型的更新算法,实现模型对用户群体兴趣特征的实时、准确反映。(3)研究了搜索意图分析和扩展的相关技术,给出了分析扩展算法,对于提高搜索效率,效果比较明显。(4)研究了搜索引擎排序算法,提出了基于用户模型的全局加权相关度排序算法,算法结合用户兴趣模型计算搜索关键词和搜索结果的相似度,依据相似度对结果进行排序,提高排序效果。(5)设计了基于群体特性用户兴趣模型的搜索引擎原型系统,划分了功能模块。利用Lucene和Java等开源软件和工具,实现了系统主要功能。重点对系统各项功能进行了实验研究,验证了设计思路和各算法的合理性,有效性。实验表明,在搜索引擎中加入具有群体特性的用户兴趣模型,搜索引擎的性能有一定的提高,说明研究思路合理,相关算法是有效的,同时方法存在着很多不足之处,有待于进一步的改进。
其他文献
在软件过程中,比较频繁出现的情况是在已经存在的过程中增加或更新需求,通常要求改变软件模型中的一系列任务,角色,工作产品,工具,步骤等元素,它们通常横切不同模块而且缺乏
随着IPv6技术的发展和人们对多媒体信息服务需求的增加,基于下一代互联网的视频直播系统成为多媒体应用的一个重要方向,得到了迅速的发展。但是组播方式的IPTV系统面临着许多
射频识别(RFID)是一种高效的自动识别与数据采集的技术,它利用无线射频信号对物体进行识别与信息传递,在制造、医疗、运输、物流等领域有着广泛的前景,被誉为21世纪最有前途
随着软件技术的迅速发展,软件系统的规模不断扩大,对系统模块化要求也越来越高。面向方面编程(AOP)作为一种新的软件开发范型,利用方面来实现横切关注点的模块化,使系统的可
每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网
随着网络及软件技术的快速发展,Web services的重要性越来越明显。为了更好的应用Web services,Web services分类成为重要的基础性工作,其在Web services的发布,发现,语义标
梁-柱结构是结构工程中常见的构件,无论是在机械工程、土木工程、水利工程以及航空航天工程,还是在一些高科技领域,都能够找到梁-柱结构的应用背景。随着高科技的不断发展,梁
科技时代带来信息的飞速增长,计算机与网络技术的飞速发展使整个应用领域的数据和信息十分巨大,更甚于人类的参与,使得数据与信息系统中的不确定性更加显著、因此,对于图片视
安全是任何网络系统都关心的问题;对于缺少基础设施的资源约束型无线传感器网络来说,安全显得尤为重要。长期以来,无线传感器网络安全的研究是无线传感器网络研究中的研究热
远程复制又名远程镜像,是维持数据一致和灾后恢复的基础,也是数据容灾的核心技术。它在本地生产中心与物理上分离的备份中心建立远程复制连接,在备份中心存储并维护数据镜像。当