基于主题和情感分析的垃圾评论识别方法研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:liang630223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的飞速发展,网络购物被越来越多的消费者所认可。大部分消费者都会对自己购买的商品发表评论,这些评论信息为其他消费者提供了参考决策。由于某些利益关系,并非所有的评论信息都真实可靠,虚假的评论会影响到消费者的购物体验甚至会误导消费者做出错误的购买决策,这些虚假的评论统称为垃圾评论。垃圾评论大致可以分为内容型垃圾评论和欺骗型垃圾评论两类。内容型垃圾评论一般为广告、垃圾网页链接、随机文字等无关信息,其主要目的是消息的推广。欺骗型垃圾评论则是蓄意吹捧和诋毁商品的评论,其主要目的是影响潜在消费者的购买行为。本文分析两类垃圾评论的表现形式,设计不同的方法抽取特征,最终融合多维特征使用分类器完成对垃圾评论的识别。主要工作如下:(1)分析内容型垃圾评论的特点,本文设计主题匹配模型抽取评论的主题信息构建特征。该方法首先收集大量的与商品相关的评论文本,抽取其主题信息构建商品的语料库。然后赋予语料库中每个主题词不同权重,并抽取评论的主题信息与语料库进行匹配计算,得出该评论的“主题吻合度”。最后结合从评论内容和用户行为抽取的多维特征,采用监督学习的方法实现对垃圾评论的识别。(2)分析欺骗型垃圾评论的特点,本文基于情感分析提取用户评论的情感信息构建特征,该方法利用深度学习的技术将所有评论进行情感分类,在得出评论情感的正负向后,分析每条评论情感倾向的程度,分别计算其在同类情感评论中的情感偏差。利用情感分类的结果本文总共提取了3维情感特征:评论情感异常度、用户打分与评论情感的一致性、用户所有发布评论的情感复杂度,然后结合多维非情感特征使用监督学习的方法实验对垃圾评论的识别。(3)融合上述提取的特征和传统的文本特征,使用多分类器集成的方法完成对评论的分类。根据随机子空间方法中在处理特征维数不高时的缺点,提出一种基于规则特征抽取的随机子空间方法,改变了传统方法中通过随机抽取原始特征集构建特征子集的方式。通过制定抽取规则,保证了每个成员分类器有一定的准确度,最后比较了3种不同分类器集成方法对垃圾评论的识别效果。
其他文献
目的:研究下呼吸道铜绿假单胞菌β-内酰酶,主要是超广谱β-内酰酶(ESBLs)、AmpC酶的表达情况,以及产酶菌和非产酶菌的耐药性,探索铜绿假单胞菌的耐药机制并指导临床合理使用抗生
<正> 一份经济合同的依法订立和正确履行,综合反映了企业的经营管理水平。企业签订经济合同是为了达到预期经济目的,取得最佳经济效益,不希望发生经济纠纷,最好是每份合同都
目的观察研究卡培他滨和替吉奥单药对于老年晚期乳腺癌的临床治疗效果及安全性的比较。方法选取我院2014年1月至2016年1月接收的老年晚期乳腺癌患者70例,平均分为两组,每组35
本报讯 (记者张微 乔玲) 7月23日,中国社会科学院当代城乡发展规划院和社会科学文献出版社共同主办了“《中国城市发展史》首发式暨中国城市史与现代城市建设论坛”。论坛旨在
报纸
乙烯是一种非常重要的气态植物激素,参与植物生长、发育及衰老的许多过程,且在应对生物胁迫和非生物胁迫过程中也起到了重要的作用。研究表明乙烯信号的重要组分EIN3具有非常
针对日益严峻的智能卡芯片数据存储安全威胁以及当前常用存储器加密技术的不足等问题,提出了基于轻量级分组密码算法KLEIN的智能卡存储器加密方法,设计实现了KLEIN密码算法的
城市化的快速发展,必然提速城市旅游业的发展。城市旅游不仅是现代城市的重要功能之一,也是现代旅游发展的支撑点。笔者分析了历史文化名城开封市在旅游业发展现状和旅游产品
北京市医疗保险通过对定点医疗机构建立医疗费用定额管理、多种结算方式并存的结算模式,以及预警、审核机制,满足了医保付费的需要,降低了基金风险,确保了医保基金的安全。
目的探索时间驱动作业成本法(TDABC)在单项目护理成本核算中的应用路径,为护理单元间接成本核算以及分摊项目成本分摊提供方法学指导,从而为全面而精准的护理成本核算、决策机构价格制定及护理人力资源优化配置提供参考依据。方法护理核算项目的总成本为核算项目自身人力成本、材料成本、间接成本以及从分摊项目分摊所得的人力成本和材料成本之和。本研究在课题组前期完成单项目护理人力成本的基础上继续核算其他四项成本,