基于超图模型的新闻推荐研究

被引量 : 0次 | 上传用户:wangbadanwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济和互联网技术的高速发展,新闻资讯得到了快速的增长和传播,越来越多的用户使用计算机或智能手机阅读新闻而不是观看电视或购买报纸。新闻资讯的海量生成和快速传播给我们带来了丰富的信息,但同时也带来了信息过载的问题。新闻推荐系统的研究和应用可以为用户推送合适的新闻,提升阅读体验,解决新闻信息过载问题。传统的推荐技术研究着重于用户和物品之间的访问协同性,这在商品推荐、评分预测等应用领域也取得了较好的效果。然而,待推荐的新闻往往是新出版的新闻,与用户之间很难建立直接且稳定的关联,这种场景下容易出现冷物品问题。因此,新近的新闻推荐研究较常使用的方法是将基于内容的推荐作为推荐框架的重要组成部分,将待推荐新闻和已经训练好的用户偏好度模型进行对比。但基于内容的方法一般需要将新闻看成基于词袋的向量空间模型,不仅丢失了语义信息,也没有充分考虑新闻内容的一些基本特点,如体裁、类别、地区、作者等因素在用户阅读行为预测中的重要作用。同时,单纯考虑基于内容的推荐方法容易导致推荐多样性不足。此外,也很难将系列新闻报道即用户阅读新闻的上下文环境作为推荐学习的背景因素,即没有考虑新闻演化问题对用户阅读行为预测的影响。由于冷物品问题、多样性问题和新闻演化问题没有得到很好地解决,因此也影响了新闻推荐的准确性。基于以上局限,本论文提出了基于超图的新闻推荐模型,该模型有利于将新闻内容的基本属性融合在新闻推荐过程中,并容易整合基于内容和基于协同过滤的方法,以获得较好的推荐效果。本论文的主要研究工作和创新点如下:(1)提出将新闻推荐场景中的各种对象、新闻内容属性及其相互关系定义到超图模型中。超图模型擅长描述多对多的对象关系,本文对新闻推荐场景中的各种对象进行抽象,使基于超图的新闻推荐模型具备可扩展性,并定义具有普适性的超边类别,使新闻推荐可以根据应用和研究需求进行拓展。(2)针对传统新闻推荐方法所使用的聚类基于文本单一对象的局限性,本文研究适用于异构对象关系挖掘的超图聚类,提出了基于超图聚类的新闻推荐算法(HCB,Hypergraph Clustering Based news recommendation)。在对传统的新闻推荐研究中发现,基于文本聚类方法仅能对新闻关系进行挖掘,而没有直接将用户关系考虑在该过程中。本文提出了基于超图聚类的推荐框架,将新闻和用户的关系融合在超图聚类中。启发于普通图的谱聚类方法,本文提出的超图聚类方法可以挖掘用户兴趣簇,然后借助新闻选择策略给用户挑选最合适的新闻。传统基于文本聚类的推荐方法只能分析同一类型的对象,新闻文章需要转换为向量空间模型进行聚类,而HCB方法根据异构对象之间的关系进行聚类,即在聚类阶段就将用户和可能感兴趣的新闻锁定在了聚类簇中。在真实语料的实验中,HCB方法在推荐准确性、多样性和稳定性方面优于基于内容、基于协同过滤的基线方法,也略优于使用文本聚类的基线方法。(3)为了更直观地获得新闻推荐结果,融合聚类和新闻选择过程,本文研究超图排序的理论方法,提出了基于超图排序的新闻推荐算法(HRB,Hypergraph Ranking Based news recommendation)和基于二叉决策树优化的方法(HRBopt,Hypergraph Ranking Based optimized by binary decision tree)。使用超图聚类方式需要通过聚类获得聚类簇,再根据聚类簇获得候选集,但候选集往往较大,需要进一步选择。因此本研究借助超图排序模型,将新闻推荐中的各元素及其相互关系映射为矩阵元素,然后通过排序代价函数给出排序值计算方法。为了进一步消除超图排序在点和边定义阶段的主观性,本文还提出使用二叉决策树方法进一步修正选择结果。通过实验可知,使用了超图排序方法及其二叉决策树优化的方法虽然在多样化及其覆盖率指标上略差于通过超图聚类和文本聚类的相关基线方法,但在推荐准确性和排序性方面优于基线方法。(4)为了解决新闻推荐中用户阅读兴趣上下文相关的问题,本文研究了超图新闻链及其在新闻推荐中的应用,提出了基于故事链的新闻推荐(HSB,Hypergraph news Story chain Based news recommendation)。用户可能会对系列新闻报道中的缺失环节产生兴趣。本研究定义了构建新闻链的基本要素和原则,并使用超图随机游走方法构建新闻链,以新闻链作为给用户推荐新闻的候选集。实验结果表明,考虑了阅读上下文信息的基于新闻链构建的新闻推荐方法在推荐准确度指标上虽然不如融合的推荐方法,但该方法与同类基于内容的推荐方法相比,各方面的评价指标提高较大。总体而言,超图模型容易实现多异构对象关系建模、聚类和排序,本文在新闻推荐研究中借助超图模型进行定义、学习和推荐,在推荐效果上取得了较好结果,在模型上也较简洁清晰、易于扩展。
其他文献
为探讨大学生自主学习、时间管理和自我效能感的相关性,本研究采用Bandura编制的自主学习量表、Truem an编制的时间管理量表和Schwarzer等编制的一般自我效能感量表,随机选取
中世纪,英国与法国的等级代表权力机关———议会与三级会议产生后出现了截然不同的命运,这是因为英国议会是人民斗争、限制王权的结果,而法国的三级会议却是王权加强的需要
为研究高模量沥青及其混合料的低温性能,分别采用硬质沥青低标号调配剂、特立尼达湖沥青(TLA)、法国PR.S作为改性剂,对AH-70基质沥青进行改性,制备高模量沥青和沥青混合料。
爱伦.坡的作品以其鲜明的浪漫主义或理性主义而著称,很少有人注意到其创作中对待理智的矛盾心态。在《过早埋葬》中,他一方面表现出了反理性主义的倾向,另一方面又流露出了反
水产干制品是我国鲜活水产品进行深加工的代表性行业之一,在一些沿海城市的经济发展中起着十分重要的作用,随着社会经济的不断发展,这一行业受到了很大的冲击,我们有必要重新
鉴于城投公司的运营特点,要求其成本核算体现一般企业会计制度和基建会计制度的完美结合。文章将在剖析城投公司成本核算存在问题的基础上,提出如何加强其成本核算并有效进行
目的:激活外周胰高血糖素样肽-1(GLP-1)受体,观察大鼠对可口蔗糖溶液摄入量及其喜好率的变化,探讨其参与摄食调控的可能机制。方法:给予大鼠腹腔注射Exendin-4(GLP-1受体激动剂)0.5
本文依据作者多年鉴定档案的经验,概括阐述了军队档案鉴定工作中应该把握的十个要点,即:"四个重点、三个特征和三个典型",并简要探讨了十个要点的理论源流和部分的文件鉴定实
行政事业单位的部门预算改革是建立和完善我国事业单位公共财政体制的重要内容,行政事业单位财务管理部门的会计核算则是预算体系的重要组成部分。行政事业单位部门预算改革
<正>产蛋鸡群中一旦出现患病鸡只,必须立即进行隔离治疗,否则,不仅影响产蛋量,而且容易爆发疫情。为此,下面介绍几种鸡病的简易诊断法。一看群体状态首先进行静态观察,就是在