基于深度学习的点击率预估算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liu8423824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展改变了人们的学习、生活和工作方式。点击率预估技术是互联网搜索、推荐和广告领域中的核心技术之一。在过去的几十年中,互联网广告行业得到了飞速的发展,广告点击率预估技术已经成为互联网广告中的重要研究内容。近年来,随着深度学习技术的飞速发展,广告点击率预估的准确率得到了大幅提升。广告点击率预估的准确率直接关系到广告投放的质量,影响到广告主的营销效果和广告投放平台的收益,同时也影响了用户体验,因此广告点击率的预估非常重要。目前广告点击率预估主要使用的是传统机器学习技术和深度学习技术。为了进一步提高广告点击率预估的准确性,学术界和工业界主要在算法和特征向量提取两方面进行优化。然而,点击率预估场景下的数据复杂、稀疏且规模巨大,算法难以充分学习到数据中的复杂规律,并且将高维、稀疏的原始特征向量在不损失信息的前提下表示成低维、稠密且易于算法学习的向量也是一大难点。因此,本文将在算法和特征向量提取两方面进行研究,以提高点击率预估的准确率。为了进一步提高广告点击率预估的准确性,本文的主要研究内容如下。首先,在算法方面,由于深度学习在表达能力等方面有很大优势,本文基于深度学习对点击率预估算法进行研究。具体而言,本文选择了经典的Wide&Deep模型进行研究,分析了Wide&Deep模型的优缺点,并且针对该算法做出了改进,在算法的Deep部分增加了特征域内特征组合层和特征域间特征组合层,使其更有针对性的学习广告数据中的交叉特征,提高了算法的泛化性。之后,在特征向量提取方面,具体研究了用户兴趣特征的提取方法,并且提出了两种用户兴趣表示方法,分别是基于兴趣聚类的用户兴趣表示方法和基于时间衰减的用户兴趣表示方法:前者将原始用户兴趣向量进行聚类,并用不同的方法在聚类簇内和簇间将用户兴趣向量整合成定长的稠密向量,使其可以在特定场合下准确的表示用户的复杂兴趣;后者将原始用户兴趣向量在时间维度上进行聚类,并且在把用户兴趣向量整合成定长的稠密向量时考虑到时间对用户兴趣的影响,对早期的兴趣进行了衰减。最后,结合行业研究现状和现有的实验环境,用特征工程等技术对数据集进行处理,在广告数据集上设计实验,并对实验结果进行了分析。在算法方面,为了验证本文提出的算法在广告点击率预估中的有效性,本文对基于Wide&Deep模型改进而来的点击率预估算法进行了实现,对比了包括Wide&Deep模型在内的多种经典算法。实验结果表明本文提出的算法在AUC和Logloss两个指标上比改进前的Wide&Deep模型分别提升了1.16%和2.27%。在特征向量提取方面,本文还利用基于兴趣聚类的用户兴趣表示方法和基于时间聚类的用户兴趣表示方法对用户兴趣进行表示,将得到的兴趣向量输入到改进后的Wide&Deep模型中。与传统的兴趣表示方法相比,本文提出的两种方法对点击率预估算法的准确率提升更明显。
其他文献
“十二五”规划将新能源汽车列为汽车产业发展的重点,将节能与新能源汽车行业列为国家七个战略性新兴产业之一。混合动力系统总成的市场规模与节能与新能源汽车的市场规模具有较大的相关性,随着我国节能与新能源汽车行业的快速发展,混动系统总成的市场规模也在逐步扩大。这对混合动力系统生产企业来说有着良好机遇和巨大挑战。然而,混合动力系统生产企业大多是财务的以利润考核为主的传统绩效评价体系。忽视了非财务指标对公司经
随着油田开发程度逐年深入,可动资源规模逐年萎缩,新区油层剩余储量品质变差,征地费用高,采用丛式井布井可实现开发区块的效益化百万吨产能所需井数增加,各环节价格上涨,百万吨产能投资不断上升,投资控制工作难度越来越大。丛式井布置可有效降低征地面积,减少人员管理,提高产能工程经济效益,丛式井平台部署存在合理优化问题。本次突破井位水平位移限制,开展大平台布井模式,研究钻井进尺费用与地面建设费用与平台布局优化
本文采用问卷调查和分配择偶币实验法,以南京市在读本科生和硕士生为研究对象,探讨了当代大学生择偶偏好现状及资源多寡对其的影响。研究一编制了择偶偏好问卷,并分别在短期和长期择偶情境中对本硕学生的择偶偏好进行了调查,以此了解其长短期择偶偏好现状和特点。Li等人通过分配择偶币范式研究择偶偏好时引入了经济学中的“必需品”和“奢侈品”概念,将人们在低资源条件下优先考虑的择偶特征称为择偶中的“必需品”,在高资源
在医学上,肿瘤通常被分为两个大类,良性肿瘤和恶性肿瘤。恶性肿瘤又可分为两类,第一类是源自上皮细胞的肿瘤,俗称癌症,第二类是来源于非上皮细胞的肿瘤,比如来源于间叶细胞的肿瘤,称之为肉瘤。良性肿瘤一般可以通过手术等方法治疗,而恶性肿瘤最显著的特性是转移扩散性,恶性肿瘤一旦发生转移就可以直接蔓延到邻近组织或是通过淋巴、血液由近及远进行转移,进而造成恶性肿瘤患者的死亡。因此,对于肿瘤细胞的转移机制的研究对
随着社会经济和大众传媒的蓬勃发展,广告作为信息传播的手段不断走近人们的日常生活。作为一种非商业广告,公益广告为公共事业服务,旨在引起大众对社会问题的重视,号召人们采取积极的措施,传播正确的社会价值观。现代俄语公益广告发展迅速,因其多层面的文本构建及丰富的文化内涵,越来越受到国内外学者的关注。在传统的隐喻研究中隐喻被视作一种修辞手段,仅发生在语言层面,起到修饰美化的作用。直到上世纪八十年代,美国语言
抽象危险犯是近年来我国刑法理论研究中的热点问题之一。作为一个“引入”的概念,我国对抽象危险犯的集中讨论不过短短十几年时间。理论研究需要一定的消化期,这就导致危险犯及抽象危险犯的概念认识上存在模糊与争议,对概念认知的不足直接带来司法适用中的诸多疑虑,加之抽象危险犯在立法中呈现增加趋势,使我们不得不面对这些问题。因此,司法适用与立法现状成为研究抽象危险犯最直接的推动力。以往对抽象危险犯的基础性理论研究
气态烃类包括天然气、焦炉气、页岩气等。当前国内外以气态烃为原料的合成气制备工艺已发展得较为成熟。以合成气为原料制备的下游产品种类众多,且经济效益较高,目前已实现工业化。反扩散推举火焰是一种重要的射流扩散火焰形式,在天然气非催化制合成气等工业领域中应用广泛。火焰光谱诊断可确定火焰的位置、当量比等宏观性质,并反映火焰自身的特征及稳定性等。通过光谱诊断的方法可以更加全面地了解火焰氧化还原反应过程,从而更
随着金融衍生品市场的迅猛发展,货币市场与资本市场越来越密切,越来越规范化、有序化。复合期权作为一种新型期权,在市场中崭露头角,逐渐成为研究热点。复合期权是以期权作为标的资产的期权,是期权上的期权。在一般情况下,复合期权以利率或外汇为基础,将期权合约本身看做标的物,从而进行期权交易。在波动幅度较高时,投资者花钱购买,避免因价格上升带来的损失。在波动幅度较低时,投资者卖出期权,避免因价格下降带来的损失
夜光遥感影像与人类活动息息相关,被广泛应用于各类社会人文研究。学者们使用夜光数据分析能源消耗、人口、GDP等各种社会经济参数的空间分布以及变化特征,利用时间序列的夜光数据分析各类参数的变化趋势,使用时间序列中的突变评估各类突发事件的影响。夜光影像中的空间信息和变化信息已被广泛认识和应用,但是对夜光数据中的规律信息研究和应用相对较少,对夜光影像周期性波动的影响因素了解不足,限制了对数据的透彻认识与精
研究背景免疫治疗是当今颇具希望的肿瘤治疗方法,与其他传统治疗方法不同的是,免疫疗法是通过“唤醒”机体的免疫系统来清除肿瘤。免疫检查点是调节共刺激和共抑制信号来调控T细胞反应的一类分子。TIGIT是除PD-1和CTLA-4两个典型共抑制信号分子外的另外一个重要的免疫检查点分子。因此,针对TIGIT靶点的免疫疗法是当前研究的热点。CD155(Poliovirus receptor,PVR)是TIGIT