基于用户标注信息的查询扩展方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yinnahappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询扩展技术主要用于解决用户提交的查询不能准确描述其自身需求及检索意图的问题。早期的查询扩展技术主要以查询文档集作为扩展词的来源,如今,各种形式的外部扩展资源逐步被引入查询扩展过程,如维基百科、词关系词典以及用户用于搜索的查询日志等。随着社会化标注系统的发展,研究者们开始探索社会化标注信息作为扩展词来源的可能性。目前,尽管基于社会化标注信息的查询扩展的有效性已经得到验证,但其作用效果仍有提升的空间,本文主要探索了如何能够在社会化标注信息中获取更好的扩展词来优化查询扩展的效果。社会化标注系统中,用户的标注质量直接影响标签与资源的相关性,可以推知这种影响能够进一步作用于原始查询与扩展词的相关性上。因此,高质量用户标注的标签更有可能成为好的扩展词。同时,排序学习方法能够通过整合有价值的特征以获得更优的排序结果,是进行特征融合非常有效的一种手段。基于上述分析,本文的主要贡献包括以下两方面:第一,本文提出一种用户质量挖掘算法,该算法根据用户的标注行为信息为每个用户分配质量分数,用于标识用户的标注质量。本文通过实验验证了用户质量挖掘算法的有效性。同时,在该算法的基础上,本文又提出两种基于用户质量的查询扩展方法,将用户质量以两种不同的方式融入查询扩展过程中:(1)利用用户质量过滤初次检索返回的资源,从过滤后的资源中选择扩展词;(2)对高质量用户标注的标签被选择成为扩展词的打分过程进行加权,提高其成为扩展词的可能。第二,本文在基于标签词共现的查询扩展方法基础上结合以上两种基于用户质量的查询扩展方法,提出一种基于多种扩展词选择策略的查询扩展框架,进一步优化查询扩展效果。此外,本文还将排序学习方法引入扩展词的权重估计上,同时加入标签词自身属性构造特征向量来训练排序模型。实验验证了本文提出的基于用户质量的查询扩展方法和基于多种扩展词选择策略的查询扩展框架能够获得更优的查询扩展词,从而提高了查询扩展效果。
其他文献
随着多媒体技术、计算机网络及通信技术的迅猛发展,多媒体信息呈爆炸性增长,国内外学者对基于内容的图像检索技术展开了广泛而深入的研究同时取得了突破性的成果。近年来,随
随着信息技术的发展,产生了大规模的网络数据,这为进行大规模的网络分析研究提供了充足的数据。近几年网络挖掘的研究迅速崛起,并发展成为一个很热门的研究领域。链接预测是
水声传感器网络是一个新兴的研究领域,可应用于海洋数据搜集、污染监控、近海勘探、灾难预防以及分布式战术监测等,有着广阔的应用前景。介质访问控制(MediaAccess Control,MAC)
声纳技术在海洋通信和水底探测等领域得到了广泛的应用,水声系统是声纳系统的重要设备。通常,水声系统由信号源、功率放大器、匹配网络和水声换能器四部分组成,网络匹配问题是水
在分布式系统中,对临界资源的访问是需要互斥进行的,所以分布式系统中最先要解决的问题是分布式互斥算法。分布式互斥算法主要分为两类,分别是基于竞争的和基于令牌的分布式
离群点检测是数据挖掘中的一个分支,它的任务是识别其特征显著不同于其他数据的观测值。在我们平常的社会生活和自然界中,大部分的事件和对象,都是很寻常或者是平凡的。但是
语音情感识别是情感计算研究方向的重要研究分支,它通过分析语音中情感的特征,进而识别语音中的情感状态。语音情感识别在翻译系统、航线监控系统、E-learning、移动智能终端等
工作关系网络、计算机网络等是较为常见且与日常生活密切相关的复杂网络。因此,网络中社团结构的探索和挖掘具备重要的实际意义。具有内部社团结构的复杂网络中,内部子社团节
软件缺陷数量是衡量软件质量好坏的一项重要指标,尽早地发现缺陷可以避免在软件开发后期为修改、弥补缺陷造成资源的浪费,保证软件的正常交付。软件缺陷预测模型可用于软件开
随着信息技术与计算机图形学技术的不断进步与发展,越来越多的学者致力于该领域的研究,其中植物建模就是该领域研究的热点之一。利用图形学技术生成虚拟植物,不仅要对植物的形态