论文部分内容阅读
随着计算机和网络技术的快速发展,互联网已经成为生活中不可或缺的重要信息来源,深刻地影响了消费者的行为模式。越来越多的消费者开始浏览在线评论来了解产品和服务的口碑,以便做出明智的购买决策。在线用户评论作为一种反馈机制也可以帮助生产者和销售商了解产品的优点和不足,从而改进产品改善服务,获得竞争优势。但在线评论增长十分迅速,在线评论对商家绩效将产生怎样的影响?怎样有效地处理大量承载着信息的数据以获取消费者情感倾向分布?怎样区分评论信息和非评论信息等问题逐渐成为当前管理和信息科学领域面临的挑战。在线中文评论相关研究仍处于起步阶段,随着中国互联网规模和普及水平的提高,亟需展开在线中文评论自动挖掘技术。本文在对国内外研究成果梳理、总结的基础上,运用经济管理、自然语言处理、文本分类、语言学等学科的理论和方法,从在线评论对商家绩效的影响、评论情感倾向自动分析和评论与非评论识别三个方面来进行在线中文评论情感分类研究。本文主要研究内容及创新点包括:1、在线中文评论情感分类研究问题的提出。通过整理现有在线评论挖掘相关文献,将现有研究分为行为导向和技术导向两种,提出了中文在线评论情感分类亟需进行的三个研究方面。对口碑、在线口碑、在线评论以及评论情感分类的概念进行界定,明确了本文的研究范畴。2、研究了在线中文评论对商家绩效的影响。以大众点评网作为数据来源,将餐馆页面受关注度视为商家绩效的代理,建立在线评论与商家绩效的关系模型。结果表明消费者评论显著正面影响商家绩效,而网站评分和编辑评论的存在显著负面影响商家绩效。接着详细探讨了第三方评论平台和商家应采取的在线评论管理和利用策略。最后分析了评论情感计算领域的学者应该从哪些方面帮助人们自动理解在线评论。3、研究了基于监督学习的中文评论情感分类方法。探讨了基于向量空间模型的中文评论情感分类方法,主要包括文本表示方法、特征选择方法和分类方法。在N元语言模型的基础上,研究了基于字符语言模型的中文评论情感分类方法。接着分别在中英文语料上,通过实验比较了Na ve Bayes、SVM和字符语言模型的情感分类性能,以及训练集规模对情感分类效果的影响。最后,探讨了字符语言模型中N的取值对中文评论情感分类效果的影响。实验结果表明,字符语言模型在中文评论情感分类任务中能取得比较好的效果。4、研究了基于语义的中文评论情感分类方法。探讨基于PMI-IR中文评论情感分类方法,着重考察PMI-IR方法中搜索引擎和基准词汇的选择对评论情感分类效果的影响。提出一种利用搜索引擎返回的Snippet计算中文词语和评论情感倾向的方法,实验结果表明Snippet方法效果受基准正负面词汇、窗口大小和分类阈值的共同作用。最后通过实验比较了PMI-IR方法和Snippet方法对中文评论情感分类的效果,结果表明选择适当的基准词对,Snippet方法能够取得比PMI-IR方法更好的分类效果。5、研究了基于bootstrapping在Web大规模无标注真实语料中,自动构建中文主、客观语料集的方法。探讨基于bootstrapping的中文主、客观语句自动收集模型和算法,重点分析中文主观模式的构建方法以及主观性短语和主观语句的识别方法。最后,分析bootstrapping方法存在的不足,以及如何在后续研究中利用收集的主、客观语料训练评论识别模型或从中学习主观模式,以支持在线评论挖掘研究。