推荐系统及众包模式中的若干问题研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:oihvhuhuiuiui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机网络、移动互联网的广泛普及与发展,全球每年产生的数据量爆炸式增长,海量数据蕴藏着巨大的价值。然而在数据量爆炸式增长的另一面,隐藏着数据价值密度越来越低的问题。海量数据信息在给人们生活带来便利的同时,也将人们从信息匮乏的时代带进了信息过载的时代。高效的数据挖掘,是应对信息过载难题的关键。通常,互联网用户获取信息可以通过被动和主动两种途径,这也是互联网信息供给的两种途径。一种情况是用户被动的接收互联网或统一发布或个性化推送的信息;另一种情况是,用户主动使用互联网获取信息。为解决信息过载难题,本文从上述两个角度,选取了两种典型互联网信息供给方法展开研究:推荐系统和众包模式。本文主要工作和创新如下:1.针对推荐系统中的直接类型用户反馈数据—评分信息,本文提出了一种上下文信息参与建模的概率张量分解推荐算法,破解信息过载表现出的信息供求不匹配问题。目前,在个性化推荐系统中,上下文信息正在受到越来越多的重视。然而,目前大多数基于二维矩阵分解的推荐算法,不能将上下文信息与评分信息、社交网络信息和物品内容等信息同时进行建模,忽略了其中某些因素间的相互影响。本文将上述数据信息看成一个用户-物品-上下文的评分张量,将概率矩阵分解推广至概率张量分解。之后,本文进一步将概率张量分解模型扩展为上下文信息参与建模的概率张量分解算法,该算法系统的将上下文信息、社交网络信息、文本内容信息和评分信息进行融合,从而达到提高推荐系统性能的目的。在两个数据集上的实验结果,证明了方法的有效性和鲁棒性。2.针对推荐系统中的间接类型用户反馈数据—签到频率信息,本文提出了两种兴趣点推荐的时空话题模型,破解如何利用用户间接反馈信息解决信息供求不匹配的难题。常见的评分类推荐系统,评分数值大小直接表明了用户对物品的喜好程度。而在用户地点签到问题中,用户对于某个地点的偏好程度,是通过访问次数的不断累加间接体现的,因此,签到频率属于间接反馈类型的数据,数据的取值范围相比于评分信息,不固定且开放。通常,签到数据包括用户唯一标识ID、文本评论、签到时间以及地理位置等信息。为了能够综合使用上述信息为用户推荐兴趣点,首先,本文使用LDA模型分析了兴趣点和用户相关文本文档的主题分布情况,以评价兴趣点对用户的主题吸引程度,使用地理位置信息衡量用户就近访问的概率,并以指数形式对主题吸引度和地理吸引度对用户移动行为的影响进行建模;其次,本文使用时间信息将原始的用户签到数据进行分类,这样,同一类别下的用户签到数据都发生在相似时间场景下,更易从中发现规律;在上述基础上,以概率矩阵分解为框架,通过为隐特征矩阵分别假设高斯先验分布和伽马先验分布,本文提出了两种兴趣点推荐的时空话题模型,目的在于探索先验分布假设对于推荐性能的影响。相关实验证明了本文兴趣点推荐模型的有效性。3.针对众包模式获取信息质量无保证的问题,本文提出了一种开放型众包任务的答案整合方案,解决信息过载表现出的信息质量无保证问题。由于参与众包任务的工人可靠程度不同,众包平台会对收集到的答案进行答案整合以确保众包服务质量。目前,由于开放式任务类型多样,且没有备选答案,答案空间开放,开放式任务的答案整合仍处于探索研究阶段。本文认为工人答案的可信程度由任务和工人两方面因素共同决定。任务本身的困难度很大程度上决定了自身答案空间的情况(答案类别,各类答案占比),本文使用中国式餐馆过程对任务收集答案的过程进行建模,并用中国式餐馆过程的集中度参数衡量任务本身的困难度。综合考虑任务困难度,工人的可靠度和工人给出的答案,本文提出了一种答案整合方案,并设计了 EM算法同时估算工人的可靠度和任务的最佳答案。由于EM算法比较耗时,本文使用熵概念来评估任务答案空间的混乱度是否趋于稳定,当任务空间熵稳定时,再调用EM算法,这样既可以节约频繁调用EM算法的时间,也可以节约有偿任务征集答案的成本。真实数据集上的实验结果表明,本文提出方案能够在征集较少答案的情况下,实现较好的答案整合效果。
其他文献
历史原本很有趣,可是中学历史课却令多数学生感到枯燥乏味,仅为应付考试而学,甚至提到“历史老师”.便立刻给人呆板学究的感觉。形成这种现象的原因很多,笔者仅就中学历史教科书方
超声辐射下,1-萘乙酮和4-氯苯甲醛(或4-甲基苯甲醛)在甲醇钠的催化下合成了2种1-(1-萘基)-3-芳基-2-丙烯-1-酮。实验数据表明,催化剂用量、超声辐射频率和反应温度均对反应有不同程
我国通过大量的文献资料查找和比较分析等方法。从裁判员这个特殊的角度探讨了中外足球纯比赛时间的差距。研究发现:中国联赛纯比赛时间与世界大赛相比存在明显不足。而导致的
根据图书馆人力资源管理现状,结合本馆几年来的工作实际,阐述了图书馆人力资源管理的理念,提出了图书馆人力资源管理的一些具体方法。
以北京市潮土原状土柱为供试土壤,采用称重式蒸渗仪模拟自然环境下典型抗生素在土壤中的迁移规律。结果表明,磺胺类抗生素(磺胺甲基异恶唑、磺胺嘧啶)在土壤中的吸附性较差,迁
摘要:中考是选拔性的考试。若想取得良好的成绩,考前复习是师生们学习工作的重中之重。目标明确,方法科学、合理是把握考前复习的不二法门。  关键词:复习;方法;科学    中招考试属于选拔性的考试,为了使学生们在中考中取得良好的成绩,升入理想的学校,做好考前复习工作就显得尤为重要。复习得好,学生就能双基扎实,底气充足,在考试中游刃有余,取得满意的成绩。  怎样做好考前复习工作呢?下面根据我的经验谈几点
新课程的理念中,初中数学思想方法教学活动强调遵照计划性、目标性、系统性、层次性、参与性的基本原则下还应该联系数学课程的自身标准。从本体出发来提升教师的数学思维方式
我当一名一线语文教师已十年有余,对现今语文教学情况堪忧。语文课堂中出现了种种怪圈:学生无读、厌读、假读、浅读现象占领着我们的课堂;教师仍然讲得太多;学生对语文学习的积极
病例和方法本文是在老年人单纯高血压研究(SHEP)这一主项目开始后3.7年开始的,历时4.7年。收录病人条件为:年龄】60岁,收缩压21.3~29.2kPa,舒张压【12.0kPa。但患者新近MI.伴
美国贸易代表办公室每年4月向国会提交一份按国别的“国家贸易估计报告”,内容包括34个国家和2个地区贸易集团的货物贸易、服务、投资以及知识产权保护。“超级301条款”是