基于改进LDA的在线商城垃圾评论识别研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wdq007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,互联网已经成为人们生活中必不可少的一部分,在线商城的出现也使得人们的购物方式产生了巨大的变化,其产生的商品评论对消费者选择商品提供了重要的参考价值。然而垃圾评论的存在会使消费者接受到错误的商品信息,进而影响消费者的购买体验,同时也会造成商家信誉度的缺失。因此,垃圾评论识别已经成为当前在线商城发展过程中的重点问题,也是当下文本分类研究的热点问题。为此,本文在对在线商城评论数据进行研究的基础上,提出了一种改进的LDA主题模型,探究依据评论文本的主题信息来识别垃圾评论的研究方法,使得在线商城能够过滤无用或无效的垃圾评论,为消费者鉴别商品质量提供指导,并为在线商城垃圾评论识别问题提供一种解决办法。结合LDA主题模型及垃圾评论识别的相关理论,本文以在线商城评论数据作为研究对象,首先借助网络爬虫技术,设计了针对于在线商城评论数据的采集方案。并在此基础上,利用中文分词、停用词过滤及关键词提取等预处理方法对数据进行整合,进而借助文本表示方法完成了评论数据的降维操作。其次,探讨了将LDA主题模型直接应用于在线商城垃圾评论识别带来的不利影响,基于此提出了改进后的OMCR-LDA主题模型,借助评论标签提升评论主题的生成效果,同时,给出了模型的参数估计及主题数目确立方法,并进一步构建了基于OMCR-LDA主题模型的垃圾评论识别方案。最后,以京东在线商城获取的商品评论作为实验数据,设计实验框架并结合OMCR-LDA主题模型展开实例分析,通过对比实验证明模型的改进效果。结果显示,提出的OMCR-LDA主题模型能够有效提取在线商城评论的主题信息,完成垃圾评论识别的研究目标,从而验证了该改进模型的合理性。综上所述,本文设计的垃圾评论识别方案及提出的OMCR-LDA主题模型是行之有效的,在一定程度上能解决当前垃圾评论充斥在网络环境中的现实问题,为研究在线商城的垃圾评论识别问题提供了一种思路。同时通过对LDA主题模型的拓展与改进,扩展了模型的应用领域,为后续主题模型的深入研究提供了参考依据。
其他文献
传统英语专业课堂教学以教师为中心,教与学的过程以'教'为主,学生被动接受知识。学生学习动力不足,语言运用能力较差。与传统英语专业课堂教学不同,'以学生为中
目的 观测大鼠脊髓毛细血管密度的增龄变化,为脊髓微特征研究提供参考资料。方法 动用墨汗明胶灌注、生物体视学计数等方法观察不同月龄大鼠脊髓毛细血管密度。结果 同月龄
随着市场经济的快速发展,企业经营环境不断变化,传统的财务会计愈发不适应时代发展的需要。会计的职能和定位也亟待向管理会计转变。而企业在应用管理会计时,往往很难找到有
摘 要:高等职业学校教育在我国的教育发展过程中占据重要的位置。普通高中主要偏向于培养全面性人才,而职业学校不同,它更注重学生的实践操作能力和技术能力。职业学校的学生在各个学科里面,最为薄弱的就是英语学科。因此,本文从学生的质量、教学内容和方法等方面进行探讨,以期提高学生的英语能力。  关键词:职业教育;英語;教学  一、职业学校学生的英语能力现状  自中国加入WTO以来,国外的很多先进设备和教育理
随着我国经济社会的发展和政府会计制度改革的持续推进,政府披露会计信息的内容和形式也在不断变化。2019年政府颁布《政府会计制度—行政事业单位会计科目和报表》又一次拉
摘 要:随着我国教育水平的不断发展,大学生数量逐年增加。大学生就业问题已经成为国家最为关注的问题之一。如何让大学生在激烈的竞争上岗过程中发挥自身的优势尤为重要。只有让大学生的能力在就业过程中得到充分体现,才能更好地让企业发现适合企业发展的人才。本文通过形象塑造这一方面对大学生就业准备过程中产生的作用进行分析和研究,以提升大学生的就业意识和形象塑造意识。  关键词:形象塑造;大学生就业;实践  随着
我国行政事业单位的财务内部控制制度已于2014年开始实施,随着相关的财务规章制度的陆续出台实行,对规范行政事业单位的内部控制工作起到了非常大的作用。但是部分行政事业单
工业化进程中,我国的技术进步呈资本偏向型,在劳动力缺乏弹性的基础上,伴随着技术的提升,资本替代劳动力的趋势不断增强,资本-劳动比率呈上升趋势,这一发展路径带来的结果,一
标准成本法作为一种先进的成本管理方法,被广泛的应用于生产制造业企业。文章以A公司(电子元器件制造企业)为例,结合其自身多品种、订单式生产,产品及其生产条件稳定,生产流
在蛋白质一级结构鉴定实验中将传统蛋白质酶解技术联用质谱技术是当前蛋白质研究所必需,通过探索和实践,使本科教学渗入科研第一线,激发学生的科研兴趣。