协同训练框架下联合使用文本与图片的推荐方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:adf2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统通过分析用户对物品的历史行为来为用户推荐其可能感兴趣的物品。在实际场景中,用户对物品的历史行为信息往往是十分稀疏的,这会严重制约推荐系统性能。为了提升推荐系统的性能,现有的很多研究将物品的评论文本、图片等各种边信息加入到推荐系统中辅助推荐,取得了一定的效果。然而,现有的解决方法大多关注单一边信息,甚少有同时利用多种边信息的整体解决方案。事实上,同时利用多种边信息可以更加全面地表示用户偏好和物品属性,进而提升推荐算法的性能。因此,本文提出了协同训练框架下联合使用文本与图片的推荐方法,其主要创新点有:(1)首次使用协同训练这一多视图学习技术来整合文本和图片两种边信息用于推荐。该方法不仅使用文本和图片来提升了推荐算法性能,还为同时使用多种边信息用于推荐提供了一种新的思路。多视图学习是利用多源信息进行学习的重要方法。使用多视图学习可以让不同视图中的互补信息得到交换进而提升模型学习性能。协同训练是一种多视图学习技术,其利用具有不同视图的基模型互相标注无标记样本来实现信息的交换。面对高维异质的文本和图像数据,本文使用深度神经网络,分别从评论文本和物品图片中提取出低维的用户和物品的特征表示。然后使用提取出的特征构造了两个分别具有文本视图和图片视图的基模型。为了使两个视图的基模型互相学习,本文使用协同训练来联合训练两个不同视图的基模型。(2)提出了一种伪标记样本的可信性验证方法,防止协同训练过程中使用不可信的伪标记样本造成模型性能衰减。在协同训练的过程中,每个视图中的基模型会标注一部分无标记样本(得到的样本称为伪标记样本),用于另一视图中基模型的迭代训练。由于模型的标注结果不一定是可信的,本文提出了一种验证方法,保证伪标记样本的可信性,避免因为使用不可信的伪标记样本造成模型性能下降。最后,经过在三个公开数据集上进行大量的实验,结果表明本文的方法好于使用单种边信息的方法,并且退化实验显示了伪标记样本可信性验证方法的有效性。实验充分证明了本文方法的有效性,显示该方法能够有效提升推荐算法的性能。
其他文献
通过实施“精益原则”(包括价值流图技术等)来改善产品流程,已经成为许多企业尝试从传统生产向精益制造系统转型升级的重要组成部分,而这通常也意味着组织结构以及分包商、供应商与运输公司的关系的现代化发展。首先,本文运用案例研究方法,将理论分析与实证分析相结合,通过与计划、执行等运营部门的访谈,在技术研讨会上的观察,以及从终端运营系统(TOS)和商业智能软件(BI)中提取的信息,作为价值流图分析工具的输入
随着互联网信息化技术的发展,网络购物已经成为当今时代最流行的购物方式之一,也带来了电商行业的繁荣发展。而电商仓库作为电商企业运营中的重要节点,如何科学合理的进行电商仓库选址规划对企业发展、企业运营成本的降低及运营效率的提高都至关重要。本文从电商仓库选址研究出发,在需求点和备选点没有给定的情况下,提出了电商仓库两阶段选址思路。第一阶段是确定电商仓库的载体城市,是通过构建选择模型进行确定;第二阶段是在
铜铟镓硒(Cu(In,Ga)Se2,CIGS)太阳能电池,目前是薄膜太阳能电池中转换效率最高的,以其优异的特性和稳定的器件性能,在科研界备受关注,在未来的工业化和商业化具有广泛的前景。由于CIGS作为四元化合物半导体材料,具有自身材料的复杂性,对CIGS太阳能电池效率影响因素的探究,仍受限于实验条件,目前还没有利用实验测试分析方法研究高Ga组分CIGS吸收层的薄膜性质。本文借助机器学习与器件模拟这
现在的许多体育运动队和运动学校希望能够找到一种更好的方式来提高教练员的教学效果和运动员的专业技术水平,把运动员的日常技术训练记录下来,以便教练员在训练之后或在比赛之后对运动员的表现和技术动作规范程度进行回放和讲解。在教练员对运动员进行指导时,运动员可以更直观的看到自己的表现,给自己日后训练的改进方向提供参考,教练员也可以参照视频数据的对比制定相关的训练计划。本人参与了项目需求考察,系统需求分解,系
随着国家的城市化进程不断深化,城市中的人口越来越多,地铁逐渐成为承载城市公共交通压力的主要运输载体。地铁站内客流量大、人口密集,乘客安全问题成为地铁运营管理的首要压力。传统的地铁站内安全运营管理主要依靠人力对监控视频进行监视、分析,检测效果差强人意。随着技术的进步和发展,视频检测领域涌现出大量优秀的算法,可以辅助地铁工作人员更好地进行安全保障工作。基于地铁站内的安全运营需求和目标检测算法飞速发展的
智能实体沙盘现在被广泛应用在众多领域,可以从多种角度向观看者展示声音与画面信息,使其有很好的观看体验。但是如今的智能实体沙盘依旧存在着一些不足之处,比如控制手段单一,基本上都是使用按钮或触屏来控制,依旧存在着进一步优化的空间。为了解决这一问题,本文为智能实体沙盘增加了控制手段,使用关键词识别方法来进行沙盘演示控制。本系统设想工作在军事讲解领域,不能连接外部网络,需要在本地进行关键词识别,并且要求有
在商业快速发展和竞争日益加剧的今天,捆绑销售作为一种有效的促销手段,已经得到了企业和学术界的广泛认可。在实际应用中,捆绑销售的形式十分多样,例如,从价格角度可以分为降价捆绑销售和加价捆绑销售,从组件产品角度可以分为互补品捆绑销售、产品与服务捆绑销售、若干件同种产品成捆出售等。根据是否单独出售组件产品,零售商的捆绑销售策略可以分为纯捆绑销售和混合捆绑销售。本文聚焦于同种产品的降价捆绑销售,研究零售商
在信息急速增长的时代,企业已经认识到知识作为无形的资产正发挥着极大的作用。知识作为一种宝贵的资源,不仅是对企业的某一部门或某个环节发挥作用,更是贯穿企业管理的全过程,包括新人入职培训、业务熟悉、课程学习、技术分享等。除了知识整合、共享流转,怎样高效快速地获取有价值的资源也愈发被关注,现有企业知识库虽然能将资源集中管理、提供检索功能,但是缺乏资源的语义抽取和语义关联。如果员工想学习当前知识点的相关资
近几年集成电路产业得到了飞速的发展,人工智能技术也脱颖而出,智能家居、智能办公得到了越来越多的关注和使用。但是要实现更高效、更人性化的人工智能,需要的不仅仅是架构、算法,还有这些架构、算法得以运行的载体,即人工智能(Artificial Intelligence,AI)芯片。随着AI芯片的复杂度的加大,芯片验证的难度也在不断地提高,同时人们对产品及其电路的质量意识越来越强,验证已经成为不可或缺的一
我国城市轨道交通行业在近十年来发展迅速,城市人口也在不断的增加,作为承担着超过半数客运流量的地铁,其在建设、运营和维护方面也迎来了新的挑战与机遇。据相关文献研究,地铁供电能力不足的主要表现有多车起动电流过大导致直流开关跳闸,轨电位异常升高导致轨电位限制装置频繁投切等。因此,系统完善地建立地铁供电能力评估体系,对于地铁牵引供电系统的安全稳定运行具有重要的现实意义。本文从供电能力仿真的关键影响因素出发