Research on Hybrid Video Recommendation Algorithm Based on Multi-Head Self Attention Mechanism

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ppt91
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、大数据等技术的高速发展,互联网中越来越多的各类应用使得数据规模呈现爆炸式增长,从而推动了推荐系统的发展。在工业界常见的推荐模型例如:Item-CF模型、User-CF模型、LR/FM模型尽管被广泛应用,但仍然许多值得改进和突破的地方:1)当数据评分信息非常稀少时,模型容易遇到数据稀疏问题和冷启动问题。2)传统推荐模型受到浅层结构的限制,无法获得用户和项目的深层次特征。3)传统推荐模型中用户-物品间重点影响关系表达不显著。4)传统推荐模型大多认为用户的属性和喜好是固定,忽略了用户兴趣爱好随着时代的动态变化。近年来:深度学习在人工智能领域取得的巨大的成就,这也为推荐系统提供了新的发展机遇和技术创新。得益于深层非线性的网络结构,深度学习可以从海量用户行为数据中学习到要用户和项目之间更加丰富的特征表达。与传统的推荐模型相比,深度学习模型可以自动捕捉数据内部错综复杂的关系,能够挖掘到用户和项目特征,获得更复杂抽象的高阶交互特征表示。但是,目前的大多数基于深度学习构建高阶特征交叉的推荐算法会使得各个特征的权重相同,无法提取重点信息,也无法同时解决用户长短期偏好的问题。近几年研究学者们提出的注意力机制理论使得神经网络专注于输入特征的重要部分,赋予重要特征获得更高权限。使得模型不仅能够捕获用户和项目间的重要特征组合交叉,而且也可以将各个特征的权重进行可视化,使模型具有良好的可解释性。因此,为解决上述问题,本文提出一种基于多头自注意力网络的推荐模型,本次模型采用基于多头自注意力机制和两种循环神经网络的变体(长短期记忆神经网络和门控循环单位)的混合推荐模型来捕获用户反馈数据之间的相互依赖性和序列性进行推荐;其中,采用多头自注意力机制能够为不同反馈数据赋予不同权重以捕获重点信息,并构建高阶特征交叉。循环神经网络能够准确表达用户的长短期偏好。本文将从以下四个方面来对推荐系统做出研究:(1)如何向推荐系统融入多源异构数据。在搭建推荐系统时,特征工程起着关键的作用,这是因为用户信息和项目相关信息蕴含着非常重要的特征,将这些信息融入到模型中能够改善数据稀疏性,提升模型的准确度。这些与用户或者项目相关的信息被称之为辅助信息,例如用户画像(年龄、性别、职业、学历、历史行为等)和项目属性(标题、类型、时长、评分等)。随着互联网的发展,与用户交互的数据来源和数据种类也变得多元化,例如:新闻文本数据、图片数据、视频评分数据等,这些数据都是异构的,拥有不同的数据结构。因此,将异构数据融入推荐模型中的关键在于如何合理地从不同的数据结构中提取特征,提取特征后如何将这些特征建模在同一个模型内。在现有研究中,大多采用多层全连接神经网络去提取数据特征。由于这些数据具有异构、稀疏和分布不均匀等特点。本文采用一种混合异构数据的特征提取方法,针对不同的数据采用不同的深度学习模型。对于离散型数据,采用字段嵌入方法进行特征提取。对于文本型数据,采用文本卷积神经网络提取特征。(2)如何更加高效地构建高阶特征交叉。特征交叉是一种合成特征的方法,用来挖掘多维特征之间更深层次的关系。因子分解机(FM)虽然可以通过对特征的隐变量进行内积操作来构造特征交叉,但是受限于计算复杂度的原因,一般只做到二阶特征交叉,无法得到更高阶的特征交叉组合。为了解决这个问题,学术界提出了利用深度神经网络来构造高阶特征交叉,但是依旧存在一些缺陷,例如:采用全连接神经网络将捕获全部属性之间的交互,这会使模型中各个特征元素权重相同从而导致无法提取重点信息。因此,本文引用自注意力机制,设计了一个多头自注意力层,用于捕获各个元素的注意力分数,将有重要意义的特征进行交叉组合。单个特征也可能涉及到不同的组合特征,因此,本文使用多个头来创建不同的子空间并分别学习不同的交叉特征,最终得到所有子空间中的学习组合特征。(3)如何解决用户长短期偏好的问题。用户的长短期反馈数据分别反映了用户的长短期偏好,循环神经网络(RNN)可以有效地捕捉序列模型中的相互依赖关系。因此,针对用户对视频存在长短期偏好的问题,本文将多头自注意力机制与两种循环神经网络(长短期记忆神经网络和门控循环单位)相结合。门控循环单位(GRU)是标准循环神经网络(RNN)的一种变体,利用与长短期记忆神经记忆网络(LSTM)相同的门机制来解决梯度消失和短期记忆覆盖长期记忆的问题。并且,GRU相较于LSTM拥有更加简单的结构,因此,基于GRU的推荐模型的收敛速度相较于基于LSTM的推荐模型有大幅提升,适合短期模型训练和迭代。(4)最后,结合异构数据提取、多头自注意力机制、长短期记忆神经网络以及门控循环单位,本文提出一种基于多头自注意力机制与循环神经网络的视频推荐模型。具体而言,模型首先使用字段嵌入的方法提取离散型数据特征,使用Word2vec词向量工具来处理文本型数据特征,然后使用文本卷积网络提取经过Word2vec处理过词向量的数据特征。之后将输入的离散型数据特征和文本型数据特征映射到相同的地位空间,然后将低维向量输入到交互层的多头自注意力神经网络中,通过多头自注意力机制构造高阶组合特征,提升CTR预估的准确性。本项研究分别在 MovieLens 100K、MovieLens 1M 和 MovieLens 20M 这三个公共数据集上进行实验,分别对比不同模型的算法推荐精度和模型训练时间,最终得出实验结果。其中,基于多头自注意力机制(MHA)和门控循环单位(GRU)的混合推荐模型(MHA-GRU)在 MovieLens 100K、MovieLens 1M 和 MovieLens 20M 三个数据集中的表现均强于传统推荐模型(LR、FM、AFM)以及其它基于深度学习的推荐模型(NFM、Deep&Wide、DeepFM、Deep Crossing)。具体来看,对于LR、FM、NFM、MHA四个推荐模型,非线性模型NFM和MHA模型推荐效果优于线性模型LR和FM,NFM模型在FM模型基础上增加神经网络来提高特征交叉组合能力,MHA模型内部采用多重自注意力机制交叉来构造高阶特征组合。因此,引入非线性模型能够使得推荐系统获得更好的推荐效果。对于FM、AFM、NFM、Deep Crossing、MHA五个推荐模型,AFM模型在FM模型基础上增加注意力机制,因此引入注意力机制能够使得模型聚焦于重要信息。Deep Crossing模型在多层感知机的基础之上加入残差网络缓解了因网络层数增加而带来的梯度消失的问题。MHA模型结合了以上两种模型的优点,引入多重自注意力机制和残差网络,从而获得最佳推荐效果。对于 MHA、MHA-GRU、MHA-LSTM 三个推荐模型,在 MovieLens-100K 和MovieLens-1M两个数据集上,基于多头自注意力机制和门循环单位的混合推荐模型(MHA-GRU)取得最佳成绩,评价指标AUC分别达到0.825和0.829;评价指标Logloss分别为0.376和0.379。但是在MovieLens-20M数据集上,基于多头自注意力机制和长短期记忆神经网络的混合推荐模型(MHA-LSTM)在取得最佳成绩,评价指标AUC达到0.813,Logloss达到0.382;MHA-GRU模型的评价指标AUC达到0.809,Logloss达到0.401;从收敛时间上来看,得益于GRU的结构,基于MHA-GRU的混合推荐模型在三个数据集上的收敛速度比基于MHA-LSTM的混合推荐模型快25%c左右。由此推断,因为GRU模型结构较为简单,只有两个门控,从计算角度上来说效率更高,适合小规模数据的推荐同时也减少的过拟合的风险,LSTM的结构更加复杂和灵活,具有三个门控,适合大规模数据的计算和推荐。最后,本文也设计了三组超参数实验,用于探究推荐列表长度K、潜在向量维度N、多头自注意力子层的层数M对多头自注意力网络混合模型推荐结果的影响。当推荐列表长度增加时,所有对比推荐模型的推荐精度均会增加,当推荐长度大于12时,MHA推荐效果超过NFM和FM模型,这表明随着推荐数据量的增大,基于多重自注意力机制的模型会更有优势。当潜在向量维度到达32时,模型获得最佳效果,当向量维度超过32时,推荐精度降低,推测过大的向量维度会造成模型过拟合。当多头自注意力子层数量为3时,模型获得最佳效果。
其他文献
人类活动与气候变化极大地改变了全球河流和湖泊中的氮循环,并改变了温室气体氧化亚氮(N2O)的产生和排放规律。水动力条件和环境因素(温度、p H等)将影响河流和湖泊中溶解氧(DO)的浓度,而DO又是多种生物化学过程中影响N2O产生的重要因素。目前,这方面的研究还不深入。因此,论文通过构建沉积物-上覆水-气相系统,设置不同的搅拌转速和曝气量来改变水动力和环境条件,在体系中得到不同的DO浓度,进而研究在
近年来在计算机视觉和模式识别等领域,深度学习模型和算法的发展十分迅猛。伴随着这一趋势的发展,越来越多NLP(Natural Language Processing)领域的研究者开始应用新的深度学习方法。基于深度学习的自然语言处理技术在文本分类、情感分析等方面有着越来越广泛的应用,为人民生活提供了很大的便利。相比传统的基于手工构建特征的机器学习NLP系统,深度学习系统特征的构建往往需要更少的时间成本
针对现有工业机器人整机运动性能测评存在的评价参数单一、测评标准混杂以及评价软件缺乏等问题,提出了一种适用于6项整机运动性能测试的方案,构建了测试所需的动态跟踪测量系统,并开发了相应的评价软件协助解决用户在机器人选型和维护中的困扰。基于工业机器人位姿准确度、位姿重复性、位置稳定时间、位置超调量、轨迹准确度和轨迹重复性这6项整机运动性能的测量要求,以及相关评价软件的需求分析,完成了动态跟踪测量系统的搭
在中国,每年因误食含有农药残留的水果和蔬菜而中毒的人数超过10万人,死亡率约为20%。当前的农药残留检测设备不能同时满足对高精度和便携性的需求。尽管残留物检测手段有很多,但仍然存在着精度低和成本高的技术瓶颈。这些问题通过使用纸基微流控芯片的基于时间序列光电检测的农药残留检测方法解决。基于这些问题,政府制定了各种规则来调整农作物市场交易和食品工业。在中国,吡虫啉的最大残留限量(MRL)为0.5 mg
最近几十年以来,中国的迅速发展,各种基础设施的建设、通信技术的迅速推广得到了革命性的飞跃。网络和移动互联网的迅速崛起,各种技术带来的方便已经深入我们生活的每一个角落,人类社会生活的脚步已经进入了快速发展的信息时代。在信息时代,以人工智能为主题的技术在世界上掀起了一阵经久不息的热潮,随着“互联网+”国家战略的提出,给那些能够提供各种解决方案的技术带来了巨大的机遇。而文字识别技术,作为人工智能应用技术
水资源短缺、水源污染问题已成为越来越受关注的社会问题,污水的回用已被提上日程,但以往的研究发现污水中存在的以药物及个人护理用品(Pharmaceutical and Personal Care Products,PPCPs)为代表的微污染有机物(Micropollutants,MP)将对人体健康造成威胁,而传统的污水处理厂所采用的二级处理工艺无法将其有效去除。臭氧(O3)氧化能有效去除污水中的PP
作为与地球最近和最相似的行星,火星一直被人类所探索。在火星漫长的演化历史中,火星受到宇宙中各种物质或能量的影响,记录了火星地质和宇宙变化的历史。火星次表层地质结构及土壤特点的探测对于了解火星演化历史有着重要意义,同时也对火星水资源和矿物分布提供十分重要的信息,为未来的火星登陆和火星开发提供前提和保障。由于电磁波独特的穿透特性,星载雷达探测仪常被用于火星次表层的探测。然而单独的星载雷达探测仪在火星次
随着互联网和智能手机的快速发展,多模态数据(声音,图像和文字)越来越被广泛地使用在社交网络中,并且这一数量在不断地增长。传统社交网络一般是通过文字的形式来实现信息的传递,但随着技术的不断发展,越来越多的人使用视频和图片的方式来表达自己的情感和观点。例如,很多网友在微信朋友圈发布视频动态或者通过文字加配图的形式来分享自己的生活。而这些多模态数据往往所蕴含的情感是非常复杂和多元的,因此分析多模态数据所
转炉炼钢的冶炼过程十分复杂,其过高的温度和复杂的冶炼环境以及冶炼过程中需要加入各种辅料的量,冶炼期间钢水温度和成分的准确测量都是无法用常规过程控制的方法进行测量和控制,炼钢过程中氧气的加入量以及石灰的加入量是确保钢水终点成分以及终点温度的关键因素。本课题首先通过机理模型对转炉炼钢耗氧量以及石灰加入量进行计算,得到计算值与实际值之间的误差。然后通过对智能算法进行研究构建智能模型,完成对炼钢耗氧量以及
机器学习随着蓬勃发展和日益著名的中国游戏市场和电子竞技产业,电子竞技用户在中国的规模已逐年增长。在2019年,在中国电子竞技的用户数已经达到4.7亿,并预计在最近的几年里将达到5.5亿,电子竞技产业正在迅速发展。数据分析也在当下慢慢渗透进各个行业,电竞行业当然也不例外。对电子竞技的比赛进行预测的工作主要分为两个部分,一个是提取电子竞技游戏中的会对胜率造成影响的特征,另一个是对特征进行分析并将其带入