分主题在线评论排序研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:spyxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
购物网站或者APP中的在线商品评论是用户生成内容(User GeneratedContent,UGC)的一个重要体现,对于辅助消费者购买决策及帮助商家改进商品和服务具有极大意义。然而,随着互联网技术对人们生活的渗透,在线评论等UGC也呈现爆炸式增长。这些在线评论质量参差不齐,使得消费者从大量评论信息中找出有用的信息变得越来越困难。另一方面,不同的消费者对信息的需求点不一样,然而现有的评论系统没有对评论进行有效地分类。为了解决这些问题,本文提出了一种分主题在线评论排序方法。通过抽取评论主题,可以将评论信息按照主题聚类,从而帮助消费者快速定位到想要的信息;通过评估评论的有用性,可将对消费者有用的评论排在前面;从而最终挖掘出不同主题下的高质量评论。为了探究什么样的评论对消费者来说是有用的信息,本文开展了评论有用性影响因素研究。本研究基于美团网7.2万的旅游评论为研究对象,以在线评论有用性投票数为因变量,从评论者历史评论信息、评论信息质量、评论极性三个方面,构建了评论有用性影响因素模型。针对在线评论有用性投票数0值较多的问题,本文利用零膨胀负二项模型替代传统的线性回归模型,对本文的数据进行了实证分析。研究结果表明,评论长度、评论图片数量、评论者历史发表评论数、评论者历史发表评论的平均投票数、评论文本情感极性对评论有用性投票数具有正向影响。而评论评分对于增加评论有用性投票数没有影响,而对评论投票数是否为0值具有解释作用。低分评论相对于高分评论,评论投票数为0的可能性更小。最终本文基于数据分析结果确定了评论有用性计算模型。为了对评论进行主题抽取,本文开展了基于LDA模型的评论文本主题抽取研究。除了评论分词与建模、最佳主题数确定及参数设置等LDA中常见技术问题外。本文针对评论文本中垃圾评论较多的问题,对评论文本中的垃圾评论特点进行了总结,提出了两种识别垃圾评论的办法。同时,针对LDA所训练出的主题质量不一的问题,从主题语义一致性角度,利用UCI和UMass两种办法对高质量主题进行了筛选。实验结果表明,UCI和UMass两种办法均对主题筛选具有较好的效果。最后,基于评论有用性研究及评论的主题抽取研究,本文确定了评论的排序权重及主题抽取方法。最终对武汉欢乐谷的评论数据实现了分主题评论排序,并通过调查问卷方法验证了排序的有效性。问卷的数据结果表明,本文提出的分主题在线评论排序方法,能够从主题相关性及评论有用性角度,筛选出各个主题下对消费者有用的评论。
其他文献
为了解漳州市传染性肺结核病人来源,加强综合医院结核病归口管理工作,提高可疑肺结核病人的转诊到位率和追踪到位率,现就全市情况进行分析,报告如下.
【摘 要】 中国的古典诗词博大精深,犹如文学史上一颗璀璨的明珠,熠熠发光。新课改对学生的能力要求也有所提高,高中中诗歌题目的分值也有所提高。这就要求我们重视诗歌教学,提高诗歌教学的有效性。  【关键词】 高中语文;诗歌教学;学习兴趣  【中图分类号】G623.4 【文献标识码】A 【文章编号】2095-3089(2015)25-0-01  在高中语文教学中,诗歌的教学可谓是薄弱环节。主要体现在教材
关于社会记忆与档案记忆的研究,日益得到档案学理论和实践领域的关注。“世界记忆工程”更是激发了国内档案界对档案馆参与社会记忆构建的兴趣。构建社会记忆,最重要的是选择
【摘 要】 初中阶段的学生已经具备了一定的文化基础知识储备,因此,在实际的初中语文教学过程中,教师与学生要共同注重文化知识的提高与拓展。而对于初中语文课程的教学,语文阅读教学的方式能够通过有效的第二课堂来强化学生对于基础知识的拓展以及相关常识的储备,因此,根据初中阶段学生的需求以及初中语文阅读的教学效果,现阶段,初中语文教师在开展语文教学的过程中,应当积极的以有效的措施开展阅读课的教学。文章在这一
药用薄膜包衣是一层包覆在药芯表面的高分子薄膜,对药芯起到上色、保护及美化等多种作用。薄膜包衣材料适用的对象有药品片剂、滴丸、微丸等。目前使用的薄膜包衣材料主要为
随着语言学的发展,程式语在语言使用中得到了广泛的应用。越来越多的研究者和学者将注意力和兴趣转移到语言的程式化特征上,并不断地强调程式语的重要性及其意义。此外,在英