论文部分内容阅读
近年来,随着互联网的飞速发展,互联网广告作为互联网公司的主要盈利模式也得到了工业界和学术界的广泛关注。与传统广告不同的是,互联网广告可以利用数据挖掘,信息检索和机器学习等技术进行定向投放,从而得到更好的广告效果。搜索引擎上的关键词广告(也称作付费搜索)是信息检索里重要的研究对象。它的一个主要任务是通过分析用户的行为来预测他们对广告的兴趣(通常用点击率来表示),进而选择最合适的广告进行展现。
之前点击率预测的研究将单个广告作为输入,并忽略了它和其他一起出现的广告之间的关系。这种独立性假设在实际系统中并不一定成立。在本文中,我们首先检查了同一个广告,在同一个搜索词下的同一个位置,但是和不同的广告一起出现时的点击率。我们发现大多数时候点击率变化非常大,证明广告之间的关系很大程度上影响了广告点击率。从这种现象出发,我们对广告之间的关系和它在点击率上的作用进行了深入的研究。主要工作总结如下:
1.为了验证和了解广告之间关系对点击率的影响,我们对搜索引擎的广告点击数据进行了统计分析。通过检查同一个广告,在同一个搜索词条下的同一个位置的点击率在和不同的广告一起出现时的标准差,我们发现这个点击率变化非常剧烈,说明关系对点击率的影响在真实数据中普遍存在。进一步的,通过分析和点击率的相关性,我们发现其他广告的质量对当前广告的点击率并没有明显影响,而广告的相似程度与点击率则呈现出非常明显的负相关关系。
2.利用数据分析的结果,本文提出了一种基于连续型条件随机场的点击率预测模型。我们用条件随机场的点特征函数和边特征函数来分别表示单个广告的内在特性和广告之间的关系。并利用极大似然估计方法对模型中的参数进行快速学习。同时,由于在推导过程中存在着闭式解,模型求解的时间复杂度和传统的点击率预测模型一致,可以满足实际付费搜索系统对效率的要求。为了验证效果,我们在商业搜索引擎的广告点击数据上进行了实验。结果表明,通过使用广告之间的关系,点击率预测模型可以得到大约20%的精确度提升。根据作者的了解,这是在点击率预测问题中第一个考虑了广告之间关系的研究工作。
上述工作已发表在2012年的国际互联网搜索和数据挖掘大会(WSDM)上。作者也给出了付费搜索中使用关系点击率预测的原型系统的设计。