商品垃圾评论检测系统的研究与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:yecongliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,电子商务产业逐渐迎来兴盛期,在这种商业模式的运作下,网络上产生了大量的商品评论。这些商品评论的质量参差不齐,在给商家和消费者带来巨大信息价值的同时也带来了诸多挑战。相关研究者经过统计发现,在各领域内的商品评论中都存在着大量的垃圾评论。这些垃圾评论有的是与购买商品毫无关系,没有任何参考价值。有的是过分褒贬,内容不真实甚至误导消费者。因此要从这海量的商品评论数据中过滤出有价值且高质量的商品评论就成为了一件亟待解决的问题。网络商品评论数据产量惊人,早以超出人力所能处理的范围,因此使用计算机科学技术去解决这个问题就成为了首要选择。目前国内外对识别出商品垃圾评论这个课题的研究已经逐渐成熟,并且形成了一套行之有效的研究方法。得益于当前机器学习领域的高速发展,现阶段对于这个课题的研究都是依托数据挖掘和机器学习技术来解决的。传统的研究方法是人为的从商品评论中提取出某些对识别商品垃圾评论非常有效的特征,然后人工搜集并标注一批训练数据集来训练机器学习分类器,最终获得商品垃圾评论识别模型的这样一种解决流程。当然这种主流研究方法已经取得了非常不错的效果,但是这种方法也有其局限性所在。传统的对商品评论的特征提取方式并没有深入到评论句的语义层面,他们所提取出来的特征基本上都是一些句子的表面特征,而想要提取出隐藏在语义层面的深度隐含特征,对这种方法来说显然是无能为力的。google在2013年开源了一款能够对文本进行深度表示的模型工具Word2Vec,这款工具能够通过训练某个特定情景下的语料库获得适应于这个情景下的高维词向量表示。经Word2Vec训练出来的词向量具有语义层面的深度表示能力,因此本论文就在这项技术的基础上来研究如何提取出商品评论语义层面的特征信息。本文提出了三个新的商品评论特征提取方法:WV-1、WV-2和WV-3。WV-1采用商品评论句分词的词向量累加的方式来构建,与传统商品评论特征相比,在商品垃圾评论识别的问题上具有非常优越的表现。而WV-2则将WV-1特征和传统商品评论特征结合起来,使它们优势互补,在WV-1特征的基础上进一步提升了识别模型的效果。WV-3特征考虑了词语权重信息,对WV-2特征进行了改进,同样也在商品垃圾评论的识别问题上有良好的表现。这三个特征提取方法成功的将商品评论中语义层面的特征信息表达了出来,对比以往传统的商品评论特征,它们具有十分优越的表现,在同一个分类器下能够显著提升分类器的各项指标。本文在最后一章还简述了基于以上理论的商品垃圾评论识别系统的软件设计过程,成功地将新提出的理论应用到实际场景中,进一步证实了该论文核心理论的可行性和有效性。
其他文献
保证用户的服务等级协议(SLA)与能源的高效利用是目前云计算极为关注的两大重点问题。虚拟化技术是云计算资源管理中的关键技术,其中,虚拟机迁移技术和策略都是极为引人关注
随着互联网信息规模的增长和用户交互模式的转变,推荐系统在现代互联网中的重要性日益增长,对推荐系统的性能要求也与日俱增。随着推荐系统中用户和物品规模的增长,为了更好
随着信息技术和Internet技术的发展以及市场竞争的加剧,计算机网络技术在期刊管理和编辑出版流程中的应用日益广泛,通过网络投稿与审稿已成为期刊管理的主要趋势和重要途径。
CAE(Computer Aided Engineering)是用计算机辅助分析计算复杂工程和产品结构强度、刚度、屈曲稳定性等问题的一种近似数值分析方法。影响CAE计算分析结果的一个重要因素是有
CBR(Case-Based Reasoning,基于案例推理机制)是一种重要的人工智能方法,它采用相似度匹配的方法,从案例库中检索出与新案例最相似的案例,并进行修改,给新案例提供解决方案的推理模
随着车联网、智慧城市、虚拟现实等新型网络应用的兴起,边缘无线网络中的服务类型不断增多。不同服务对时延的要求各不相同,从而给边缘缓存技术带来了新的挑战。本论文基于软
随着信息时代的飞速发展,网络与信息系统构成的虚拟空间日益重要,信息安全成为社会与国家安全的重要组成部分。通过信息安全风险评估,识别信息系统中风险的性质及危害程度,并
电子政务就是运用计算机、网络和通信等现代信息技术手段,实现政府部门组织结构和工作流程的优化重组,摆脱空间和部门分隔的约束,组建成一个公平、高效、廉洁的政府运作模式,全方
网络技术的快速发展,使得传统的工业控制领域也有了天翻地覆的变化。无线热潮也渗透到了工业领域中,在其引领之下,工业无线通信技术得到了快速发展。工业无线通信技术是一种
近年来,随着计算机网络技术的飞速发展,各种综合服务应用越来越广泛,导致带宽需求与日俱增,时常造成网络拥塞。各种分布式多媒体应用不但对网络有很高的带宽要求,而且要求信