论文部分内容阅读
作为互联网用户访问网络资源的主要入口之一,近十几年来搜索引擎在用户规模和数据体量上都取得了极大的发展。然而,互联网搜索的资源质量参差不齐。以往对于搜索引擎资源质量评估的相关工作主要集中于垃圾网页的检测。然而,搜索引擎的资源质量问题不仅仅局限于垃圾网页。首先,搜索引擎索引的网页中存在大量的低质量数据,如欺诈电话、虚假新闻、推广信息等等。将这些低质量的结果返回给用户会极大地降低用户体验。其次,为了更好地满足用户需求,搜索引擎当前注重将问答式社区等垂直资源与传统网页搜索结果整合,共同反馈给用户。如果这些高质量的搜索资源被人利用(如推广产品)的话,会降低搜索引擎的整体质量。第三,由于搜索引擎的隐式反馈机制,存在用户利用作弊点击提升网站搜索排名的现象,使得搜索用户可能无法在搜索结果列表的较高位置找到自己想要的内容。最后,由于搜索引擎融合了多种垂直搜索资源的结果,如问答社区、百科网站、众包平台等等,这就导致即使返回的结果都是高质量的,在面对用户不同的搜索任务时,如何在异质的搜索来源中进行选择以提升用户的搜索成果和满意度也成为了一大难题。本文针对面向网络搜索的资源质量评估进行了研究,主要贡献如下:搜索结果中的欺诈信息识别:在搜索引擎结果页面的普通结果中充斥着大量的低质量内容。以欺诈客服电话为例,当用户想要查询某产品的官方客服电话时,在搜索结果页面中往往掺杂着包含欺诈的非官方客服电话的网页。这就对搜索用户的结果选择造成了困难,同时损害了商家和用户的利益。本文提出了基于电话在网页上共现关系的欺诈客服电话检测算法。我们根据多个电话在同一网页上的共现现象构建了电话的共现关系图,并从种子欺诈客服电话和种子官方客服电话出发分别在共现关系图上进行扩散,以达到欺诈客服电话检测的目的。垂直搜索结果中的恶意推广信息识别:在搜索引擎结果页面中整合了大量来自垂直搜索资源的结果,但如果这些垂直结果被人利用也会存在质量问题。比如在问答社区中就存在恶意推广的现象,而且在“三打哈”等众包平台上也存在大量的利用问答社区进行商业推广的任务。这就使得用户在问答社区中提出问题以后,可能无法得到想要的答案而是收到多条推广信息。如果这些问题被搜索引擎检索,那么也会降低搜索用户的体验。本文通过对问答社区推广行为的分析,发现推广者需要依赖推广渠道(如URL、电话号码、社交媒体账号等等)来连接到普通用户,这些推广渠道对于推广行为来说是必不可少的。通过这一发现,我们提出了基于“渠道-答案”二部图的扩散算法,以检测问答社区中的推广信息。用户反馈信息中的恶意作弊行为识别:由于搜索引擎会根据用户的点击数调整搜索结果的排名,因此存在用户利用作弊点击提升网站搜索排名的现象。这就导致了一些低质量的网页在搜索结果列表中获得较高的排名,影响了用户的搜索体验。本文对于用户的作弊点击行为进行了深入的分析,发现作弊用户的搜索会话模式区别于普通用户的搜索会话模式。在本工作中,我们在对用户会话进行建模的过程中同时考虑了搜索动作和时间间隔信息。基于建模的用户会话,我们抽取了频繁序列模式,并构建了“模式-会话”二部图。同时,我们利用单条点击作弊记录的结果获取了种子作弊会话,并从种子出发在二部图上进行扩散,从而得到更多的作弊会话模式。异质搜索资源的合理选择:搜索引擎融合了异质搜索资源的结果。面对不同的搜索任务,用户应该如何选择高质量的搜索资源来提升自己的搜索成果和满意度呢?本文针对这一问题进行了用户行为分析。我们设计了多个从实际搜索用户需求出发的任务并且招募不同知识背景的用户来完成这些任务。我们提供了异质的搜索环境,包括通用搜索引擎、通用问答社区和专业问答社区。对于每个任务,实验者需要通过搜索来给出答案,这些答案也会由设计任务的专家来评估正确性。在搜索结束后,我们会收集实验者对于该任务的搜索满意度。通过对于实验结果的分析,我们得到了两点主要结论。第一,在进行复杂任务搜索时,问答社区对于搜索成果起到了关键性的作用。用户越频繁地使用问答社区来进行检索,那么就越可能给出一个正确的答案。第二,搜索满意度不等同于搜索正确性。在大量用户满意度较高的搜索任务中,用户反馈的搜索结果往往存在谬误。