基于可信度传递的商品垃圾评论检测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:nj84219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网络已经对人们表达自己和与他人互动的方式产生了巨大的影响。在线评论在今天的电子商务中起到至关重要的作用,消费者常常会通过网络查看商品或者商店的评论信息,然后做出购买决策。但是由于网络中存在着大量的垃圾评论,消费者会被误导甚至购买质量低下的商品,严重影响购物体验,商家也会因为恶意评论而名誉受损。因此,近年来垃圾评论的智能化检测已成为一个研究热点。本文系统地总结并论述了垃圾评论检测领域的发展现状,分析了该领域相关算法和技术。针对传统基于人工标注的算法性能评价体系工作量大、不利于计算机处理等问题,本文提出使用两个识伪度指标来度量检测算法的性能。主要思想是比较检测前后的数据样本在推荐系统准确度和评论正反馈率上的差异,这种方法为观察垃圾评论检测的效果提供了新的视角,可以作为传统评价体系的补充。本文使用可信度得分作为度量评论、评论者、商品可信程度的指标,通过分析影响评论可信度的关键因素,从中抽取了评论文本的长度、属性覆盖率、时间分布三个特征计算评论初始可信度得分。此外,本文在属性词典的提取中巧妙的将词频统计方法与主题词模型进行融合,并使用成熟的第三方工具word2vec构建提取模型,实验表明,本算法能获取更加丰富而准确的属性词典。受评论关系图和Web事实发现的启发,本文发现了评论、评论者、商品三者之间可信度的相互影响关系,而之前的研究者多把三者作为单一研究对象,忽略了它们之间的关系。因此本文提出了一种基于可信度传递的垃圾评论检测算法,该算法将评论、评论者、商品抽象成图模型,以评论初始可信度得分为基础,以三者构成的网络为线索,构建计算评论、评论者、商品可信度得分的模型,修正评论可信度得分,排除可信度得分小于可信阈值的评论。实验表明,此算法在准确率和召回率上都有一定的提升。
其他文献
随着计算机软硬件技术的飞速发展,图像处理技术已经被广泛地应用于生活的各个领域。图像分割作为图像分析中的关键步骤,一直是图像处理技术研究中的热点和焦点。图像分割是将
学位
随着Interact的不断发展和普及,Web应用系统得到了广泛的使用。进入Web2.0时代以来,基于框架的Web开发逐渐成为主流开发技术。由于Web应用的分层开发及框架本身限制,单一框架很
随着计算机软、硬件技术的迅速发展,高性能计算逐渐在越来越多的行业中得到应用。并行计算是实现高性能的一种重要的技术途径,其关键环节是并行程序设计。串行程序并行化作为
? ? ? ? ? ?随着Internet的迅猛发展与普及,以及宽带网络建设的日益完善,网络开始带给人们形式多样的信息。从在网络上出现第一张图片到现在各种形式的网络视频、三维动画,人
本文所研究的限量弧路由问题(Capacitated Arc Routing Problem,CARP)是一个经典的组合优化问题。它在现实中具有非常广泛的应用,如冬季撒盐路由、城市垃圾清理、信件投递等现
在高性能计算技术研究领域,机群系统具有良好的可扩展性与高性价比,受到越来越多的大学及科研机构的青睐。随着计算机集成技术的不断发展,多核技术开始大行其道,双核及四核的处理
计算机网络经历了网络互联、万维网,正在向大规模的分布式网格计算阶段发展。网格计算是把Internet上的计算资源、存储资源、服务资源等信息资源虚拟化并集中为可共享的服务
蒙古语词切分是蒙古语信息处理中的一个基础课题,具体内容是利用计算机自动识别出构成蒙古语词的词干与词缀。蒙古语的词干与词缀中包含大量的语法信息,利用这些信息有助于提
指纹被用来作为个人的身份识别与认证已经历了漫长的岁月。随着科学技术的不断发展,指纹识别技术已被人们公认为个人生物特征识别的物证之首。指纹识别一直是模式识别领域内热
随着Internet的高速发展,计算机技术也进入了以网络为中心的发展时期。网络服务正朝着高效率,低响应时间,高吞吐量的方向发展。人们对高效率和高可靠性的追求,给应用服务器带