基于形式概念分析与关键词加权的用户查询词扩展研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:assofour
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网上新的网页每天以惊人的速度在增长,这为满足用户检索信息提供了足够大的空间,但是想找到满足需求的信息也越来越成为困扰用户的一个问题。搜索引擎作为一种网上信息服务系统,为用户在Internet上查找信息提供了方便。用户在使用搜索引擎进行信息查找时,通常都是向搜索引擎提交一系列的查询词,但是由于自然语言的模糊性,用户提交的这些初始查询词并没有被搜索引擎准确理解,导致搜索引擎返回的信息中有些与用户的查询意图是不相关的,甚至有些还会严重偏离用户的搜索主题。解决词不匹配问题成为信息检索领域中十分重要的研究课题,查询扩展是解决词不匹配问题的有效技术。为了更好地解决查询词扩展技术存在的问题,论文结合形式概念分析( Formal Concept Analysis )与关键词加权进行了查询词扩展的研究。论文的主要研究内容归纳如下:1.提出一种对查询扩展源进行优化的方法。优化的基本思想是:首先分别对用户相关反馈过程中得到的文档和由搜索引擎返回的文档集中那些不同于用户相关反馈过程中得到的文档进行分析,运用形式概念分析的知识建立两个概念格( Concept Lattice ) ,为了区分,就把这两个概念格分别称之为“用户概念格”和“挖掘概念格”,然后通过计算概念相似值,在“挖掘概念格”中找出与“用户概念格”相似度较高的概念,最后抽取出这些概念的外延,并将它们加入到用户选择的文档集合中去,达到优化查询扩展源的目的。2.提出一种通过给关键词加权进行查询词扩展的方法。在这种方法中,首先把用户初始查询和查询扩展源中的文档转化为向量,通过计算向量之间的相似度得到文档与查询的相似权值,接着分别在单个文档和整个文档集中分析词的权重,然后把这些权重值进行合理的结合得到词的最终权重,最后选取那些权重值大的词作为查询扩展词。借助这种方法,可以在整个文档集中抽取出质量较高的词作为查询扩展词。论文最后通过20组不同主题的用户查询词以及搜索引擎对每组查询词返回的前50个网页进行实验验证。实验数据表明:论文提出的方法具有较大的实际应用价值,它能够明显地提高搜索引擎的准确率和召回率。
其他文献
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在[2]。
随着互联网进入生活的各方各面,网络入侵也日益成为人们面临的安全问题。因此,有效地检测到网络入侵行为具有十分重要的意义。网络入侵检测方法分为基于特征的入侵检测和异常
无线传感器网络是由部署在监测区域的大量廉价的微型传感器节点组成的,且由无线通信方式形成的一个多跳的自组织网络系统,它的目的是对网络覆盖区域内的感知对象进行实时的感
在分布式数据库中,系统的性能受查询策略的影响,而一个查询的处理代价通常是由进行通信的信息量来决定。半连接方法可以减少通信数据的传输量。分布式数据库具有并行处理子查
在基于内容的图像检索系统和人脸识别系统中,提取有效的鉴别特征是系统中的关键环节,是为下一步检索和识别的工作奠定基础的重要步骤。本文基于对子空间特征提取方法的深入研
何为数据挖掘?从字面意思理解就是对数据进行挖掘,本质的目的就是从数据库或其它相关信息库的大量数据中,挖掘出能够反映有效知识的数据的过程,是当前非常热门的一个研究领域
自上世纪80年代数据挖掘被提出以来,人们就开始不断研究探索,希望找到高效准确的数据挖掘方法,来帮助解决数据量庞大而计算能力有限这一矛盾。   数据与数据间存在着潜在
随着计算机处理能力和互联网技术的飞速发展,多媒体信息已经广泛地渗透到社会的各个领域中。众所周知,多媒体信息如:音视频、数字图像需要通过网络传输,在传输过程中信息容易
随着网络、图像处理以及通信技术的快速发展,智能视频监控成为计算机视觉领域一个新兴的研究内容,并且在各行各业都得到了广泛的应用,本文选取能够获得360度环境信息的全方位
图像分割是信息技术处理中的一个重要研究领域,也是现在技术研究中的热点和难点。随着现代技术的快速发展,图像分割技术也是快速的发展。但是,因为图像采集过程会受到外界因素的