高效率用户群体兴趣趋势发现的推荐方法研究

被引量 : 0次 | 上传用户:panmandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及电子商务技术的迅速发展,用户获得的信息呈爆炸式的增长。电子商务在给用户带来丰富产品和快捷方便的同时,也带来了诸如数据海量、品种多样、真假难辨等问题的困扰,形成了所谓的“信息过载”,推荐系统就是为应对这一问题而产生的。与搜索引擎和门户网站不同,推荐系统可以通过分析用户与其他用户的关联和历史消费等数据,预测用户尚未购买而符合用户需求的商品,促进用户从观望向购买的转化,有效提升用户对电子商务网站的信赖并提高商品的销量。然而,用户数量和企业规模的不断增长导致把握每个用户的兴趣趋势十分困难,主要体现在三个方面。首先,多用户群体中能够积极参与系统交互的人数比较少,推荐方法难以将反映多用户真实需求的数据准确地提取出来;其次,用户对其他用户和推荐系统的信任度比较低,不利于提取用户的有价值数据,妨碍对用户个性化需求的了解和提升用户对系统的满意度;第三,推荐系统通过获取用户的个人数据来进行更加准确的推荐,这就产生了用户对个人隐私的担忧,导致用户的分享行为变得保守,使推荐系统中隐私收集策略无法充分考虑所有用户的信息分享偏好。这些问题的存在都不利于推荐系统充分了解用户的个性化需求,降低了推荐系统的准确率和用户的满意度。本文以上述三个方面为研究目标,从高活跃度、高信任度、高隐私分享量共三类高效率用户群体中预测和挖掘出用户的兴趣趋势,进而做出更准确的个性化推荐,使用户对电子商务中的推荐系统具有较高的信赖度和满意度。本文的主要贡献如下:(1)提出一种新的推荐算法Div-clustering,实现了电子商务中用户实体的数据建模,在此基础上利用改进的k-means聚类算法完成了高活跃度用户的识别,以识别的高活跃度用户群体的数据优化了推荐项目,使推荐系统的推荐准确率更高。Div-clustering通过分析实体数据结构,建立了多用户群体的图模型,研究了高活跃度的用户群体和推荐项目的特征。实验中的论文数据主要从Elsevier和IEEE等学术网站通过网络爬虫Websphinx爬取,电影数据来自于两个著名电影网站MovieLens和IMDB。实验结果表明Div-clustering推荐算法在学术论文和电影的推荐中体现出更高的准确率,与传统基于普通用户的推荐算法相比,Div-clustering在实时评估和线下分析中表现出更好的稳定性,也说明来源于高活跃度用户群体数据产生的推荐比普通用户群体数据产生的推荐,更容易被其它用户接受和信任。(2)针对推荐系统中信任关联的稀疏性问题,以高活跃度用户群体更容易被信任为出发点,提出挖掘用户间隐性信任关联的推荐算法PointBurst,所挖掘的隐性信任关联为用户间已知的显性信任关联提供了有力的补充,缓解了协同过滤等传统算法在电子商务环境中面临的信任关联稀疏性问题。PointBurst算法在多用户图模型的基础上着重分析用户间的信任关联特征和关联强度,优化了同类型实体之间的分类和不同类型实体之间的关联标记,从已经识别为高活跃度用户群体中,进一步挖掘高信任度的用户群体和隐性的信任关联,最终利用已知的显性信任关联和挖掘的隐性信任关联共同作为推荐系统的输入而生成推荐项目。通过在del.icio.us, Myspace和MovieLens等数据集中分别运行PointBurst算法和传统推荐算法进行比较,结果表明PointBurst算法产生的推荐项目更加准确和稳定。(3)在用户的隐私分享量与信任关联强度成正比的发现基础上,提出一种基于用户隐私分享因素的学习模型ISBP,探索用户在信任关联中分享个人隐私的潜在因素,识别出高隐私分享量的用户群体,使推荐系统可以通过收集该用户群体的数据而增加推荐的准确率。ISBP在近期有关隐私分享的研究中归纳了影响用户在各类电子商务场景中的潜在因素,制定了因素假设,改进了决策树分类器、K近邻分类器和朴素贝叶斯分类器,使其能够检测出影响用户在信任关联中隐私分享量的潜在因素。将ISBP学习模型运行在从多组实时数据平台SOJUMP收集的数据集中后发现,隐私分享量最高的用户特征是年轻、非计算机类的群体,而与性别无关。在不引起所有用户隐私担忧的前提下,该类高隐私分享量的用户群体可以分享比其它用户群体更多的个人隐私信息,有利于推荐系统更好地了解用户需求并产生更准确的推荐。(4)发现了导致高隐私分享量用户群体流失的溢出现象,并提出了缓解溢出现象的决策支持机制DSS。所谓溢出现象是指,高隐私分享量的用户群体在受到不良的隐私收集顺序影响时,降低了后续的隐私分享量,使推荐系统不能够持续地获得用户的准确信息,引起了推荐准确率的下降。在分析多个数据集后发现,溢出现象是广泛存在的,主要体现在向用户收集高敏感度的隐私项目会使其后续的隐私分享量下降,而高隐私分享量用户受到的负面影响最大。本文对k-means聚类算法进行改进,使其可以检测出用户改变隐私分享量时对应的心理认知因素的改变,证实了用户的认知能力会引起溢出现象的产生,根本原因在于没有足够的储备知识来支持自己的隐私分享决策。本文提出了为用户提供隐私分享的决策支持机制,帮助用户理解推荐的机理和增加用户的储备知识。实验证明了决策支持机制可以将溢出现象的负面效果降低,保持高隐私分享量的用户群体继续为推荐系统提供充足的用户信息,维持较高的推荐准确率
其他文献
这几年不断暴露出的财务造假案,让人对审计质量表示担忧。如果这种状况不能得到很好的改善,不但会影响会计师事务所的发展,甚至会导致经济环境的混乱。对于审计质量的影响因
十八大以来习近平对外重点阐释"人类命运共同体",建构起涵盖政治、经济、安全、文化、环境五大领域,兼顾双边、区域、周边、全球多个层次的思想体系。未来中国主动引领构建"
湖南香花岭矽卡岩型锡矿床是南岭地区一个重要的锡多金属矿床,发育含Li、Be的条纹状矽卡岩和丰富的含锡矿物。本文在显微镜下和野外观察基础上,利用电子探针成分分析技术,系
为探究临床经典用药肿痛安胶囊的源流及其临床应用,查得原破伤风的主治方处方基本有两个,一是由汉代华佗创制。一是由唐代蔺道人所创制,宋代许叔微首先记载“玉真散”此方名,明代
<正>本课题组围绕民间竹玩具游戏教学采用多种研究方法,通过体育、音乐等途径采取多种方式有效开展实施。1主要内容1.1总体思路1.1.1充分利用当地特色"竹"资源,开发和创编竹
土家人自称"pi 35tsi 55 kha21",有民族母语而无文字。土家语摆手歌是土家人在其民俗活动"舍巴日"当中由梯玛或掌坛师采用土家语演唱的歌曲,有土家族原生态音乐艺术的"活化石
工笔人物画是我国传统绘画的一种艺术形式,有着悠久的历史和优良传统,在中国绘画史上占有重要的地位。由于工笔人物画植根于民族的土壤,绘画表现形式有着深厚的群众基础,符合
钙矾石是水泥水化的重要产物。在20℃、50℃的溶液中,将质量比3:2的硫酸铝与氢氧化钙混合进行反应,并与硫铝酸钙单矿水化形成的钙矾石比较,经XRD,SEM分析测试,结果表明:两种
导学设计作为一种基本的教学策略,受到越来越多教师的广泛关注.根据教学实践,提出要从学生的互动性入手,落 实三个问题,即找准起点、加强操作、关注差异,加强课堂导学设计,提
水运散装化学品泄漏事故应急是国内外不断发展的研究领域之一,在我国科学地制定散装液体化学品海上泄漏事故应急决策系统是亟待解决的现实问题。 本文首先根据散装液体化学