面向互联网搜索的资源质量评估方法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:Freyr119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为互联网用户访问网络资源的主要入口之一,近十几年来搜索引擎在用户规模和数据体量上都取得了极大的发展。然而,互联网搜索的资源质量参差不齐。以往对于搜索引擎资源质量评估的相关工作主要集中于垃圾网页的检测。然而,搜索引擎的资源质量问题不仅仅局限于垃圾网页。首先,搜索引擎索引的网页中存在大量的低质量数据,如欺诈电话、虚假新闻、推广信息等等。将这些低质量的结果返回给用户会极大地降低用户体验。其次,为了更好地满足用户需求,搜索引擎当前注重将问答式社区等垂直资源与传统网页搜索结果整合,共同反馈给用户。如果这些高质量的搜索资源被人利用(如推广产品)的话,会降低搜索引擎的整体质量。第三,由于搜索引擎的隐式反馈机制,存在用户利用作弊点击提升网站搜索排名的现象,使得搜索用户可能无法在搜索结果列表的较高位置找到自己想要的内容。最后,由于搜索引擎融合了多种垂直搜索资源的结果,如问答社区、百科网站、众包平台等等,这就导致即使返回的结果都是高质量的,在面对用户不同的搜索任务时,如何在异质的搜索来源中进行选择以提升用户的搜索成果和满意度也成为了一大难题。本文针对面向网络搜索的资源质量评估进行了研究,主要贡献如下:搜索结果中的欺诈信息识别:在搜索引擎结果页面的普通结果中充斥着大量的低质量内容。以欺诈客服电话为例,当用户想要查询某产品的官方客服电话时,在搜索结果页面中往往掺杂着包含欺诈的非官方客服电话的网页。这就对搜索用户的结果选择造成了困难,同时损害了商家和用户的利益。本文提出了基于电话在网页上共现关系的欺诈客服电话检测算法。我们根据多个电话在同一网页上的共现现象构建了电话的共现关系图,并从种子欺诈客服电话和种子官方客服电话出发分别在共现关系图上进行扩散,以达到欺诈客服电话检测的目的。垂直搜索结果中的恶意推广信息识别:在搜索引擎结果页面中整合了大量来自垂直搜索资源的结果,但如果这些垂直结果被人利用也会存在质量问题。比如在问答社区中就存在恶意推广的现象,而且在“三打哈”等众包平台上也存在大量的利用问答社区进行商业推广的任务。这就使得用户在问答社区中提出问题以后,可能无法得到想要的答案而是收到多条推广信息。如果这些问题被搜索引擎检索,那么也会降低搜索用户的体验。本文通过对问答社区推广行为的分析,发现推广者需要依赖推广渠道(如URL、电话号码、社交媒体账号等等)来连接到普通用户,这些推广渠道对于推广行为来说是必不可少的。通过这一发现,我们提出了基于“渠道-答案”二部图的扩散算法,以检测问答社区中的推广信息。用户反馈信息中的恶意作弊行为识别:由于搜索引擎会根据用户的点击数调整搜索结果的排名,因此存在用户利用作弊点击提升网站搜索排名的现象。这就导致了一些低质量的网页在搜索结果列表中获得较高的排名,影响了用户的搜索体验。本文对于用户的作弊点击行为进行了深入的分析,发现作弊用户的搜索会话模式区别于普通用户的搜索会话模式。在本工作中,我们在对用户会话进行建模的过程中同时考虑了搜索动作和时间间隔信息。基于建模的用户会话,我们抽取了频繁序列模式,并构建了“模式-会话”二部图。同时,我们利用单条点击作弊记录的结果获取了种子作弊会话,并从种子出发在二部图上进行扩散,从而得到更多的作弊会话模式。异质搜索资源的合理选择:搜索引擎融合了异质搜索资源的结果。面对不同的搜索任务,用户应该如何选择高质量的搜索资源来提升自己的搜索成果和满意度呢?本文针对这一问题进行了用户行为分析。我们设计了多个从实际搜索用户需求出发的任务并且招募不同知识背景的用户来完成这些任务。我们提供了异质的搜索环境,包括通用搜索引擎、通用问答社区和专业问答社区。对于每个任务,实验者需要通过搜索来给出答案,这些答案也会由设计任务的专家来评估正确性。在搜索结束后,我们会收集实验者对于该任务的搜索满意度。通过对于实验结果的分析,我们得到了两点主要结论。第一,在进行复杂任务搜索时,问答社区对于搜索成果起到了关键性的作用。用户越频繁地使用问答社区来进行检索,那么就越可能给出一个正确的答案。第二,搜索满意度不等同于搜索正确性。在大量用户满意度较高的搜索任务中,用户反馈的搜索结果往往存在谬误。
其他文献
在新时期,我国的科学技术不断地发展与创新,信息自动化已然成为当今重要的发展趋势,其中PLC技术也得到了快速的发展,无论是手工控制还是智能控制,PLC技术起到了至关重要的作
比较优势理论诞生后,经历过李嘉图的劳动生产率比较优势理论、赫克歇尔—俄林的要素禀赋比较优势理论。二战后,随着理论研究的范围、深度和所使用方法的不断拓展、深化和更新,对
日益复杂和严峻的经济大环境下,大中型企业的管理层作出决策需要得到更多的技术保障,本文将讨论利用运营监测与预警决策系统为大中型企业提供更全面、更科学、更优质的决策支
互联网商业化以后,电子商务活动日益增多,网络隐私的安全问题也日益突出。个人在线隐私安全不仅成为互联网用户越来越关心的问题之一,也成为电子商务面临的最大挑战之一。许多消
乡贤考据就是对乡贤的履历、功绩、乡里、封爵、官职等进行钩沉、考证,作为一种学术手段,为明清时期编撰乡贤传记、厘定乡贤祠祀提供准确历史信息。从事乡贤考据者主要有地方
为解决用户在混币过程中无法请求退出的问题,该文提出一种支持用户匿名撤销混币的方案。采用承诺技术将用户和其目的地址进行绑定;当用户请求退出混洗服务时,利用累加器和知
中国加入WTO以后,企业享受到贸易自由化带来的新机遇,同时也深切地感受到技术性贸易壁垒带来的压力。中国属于发展中国家,知识产权意识与专利保护意识比较薄弱,本文着重讨论了专
都市报,我国报业经济的生力军,改革的先锋队。自1995年《华西都市报》开始,历经十年发展,都市报一直立于报业市场潮头。随着报业市场竞争的日趋白热化,都市报面临着内部和外部的挑
对外贸易是经济增长的发动机。延边对俄经贸合作始于1988年,18年的对俄经贸合作中有起有落,2006年取得了历史性突破,完成28,166万美元,在全州对外开放中的地位和作用日益突出
剪纸是一门历史悠久的民间艺术,作为中华民族文化的一部分,与传统节日文化相交融,是重要的民间风俗活动之一。皖北地处中原,位于南方与北方的分界线上,皖北剪纸在发展的过程