论文部分内容阅读
电子商务的大繁荣使得数以万计的用户开始通过网络购买各种产品、服务,并在线发表评论信息。许多消费者在购买某种产品或服务的时候,通常会先参考之前购买者的评论信息,获得直观的了解和认识。而商家则通过这些在线评论信息,获得用户对其产品的反馈信息。但是由于这些评论信息数量巨大,仅靠传统的人工阅读筛选方式很难快速有效地获取有价值的信息。因此,针对海量在线评论信息进行观点挖掘成为一个重要研究课题,得到了国内外研究者的广泛关注。 观点挖掘研究主要使用基于规则的方法、基于语言学的方法和基于统计机器学习的方法。基于规则的方法需要领域专家定义不同领域的特征词和规则,无法满足新词的不断出现,并且规则也不具有跨领域性。基于语言学的方法利用语言的语法特性规律识别特征词,但是不同语言的语法组织方式差异非常大,不具有跨语言性。上述两种方法的可移植性差,而且不能自动聚类到具有相似意义的主题下。LDA主题模型作为一种无监督统计主题模型不仅能够很好地克服上述方法的缺点,还不需要人工标记大量训练集,而这正是其他有监督和半监督统计模型所必须的,因此得到了研究者的广泛运用。但是由于标准LDA模型是一个词袋模型,没有考虑词的位置和语义信息,不适合用来提取细粒度领域特征词,同时由于模型是一个三层结构,也不适合进行细粒度观点挖掘,因此,需要加以改进后才能使用。 为解决该问题,本文在对标准LDA模型进行改进的基础上,提出了一个主题情感统一最大熵LDA模型(Topic and Sentiment Unification Maximum EntropyModel,TSU MaxEnt-LDA)对在线网络评论进行细粒度观点挖掘。首先,在传统LDA模型中加入最大熵组件,用以区分背景词、特征词和观点词;然后,通过加入指示变量,对特征词和观点词进行全局和局部的区分。最后,在主题层和单词层之间加入情感层,将传统的三层LDA模型扩展成四层,在提取特征词和观点词的同时进行情感极性分析,先获取每个主题的情感极性,再获取整篇评论的情感极性,最终生成细粒度的主题情感摘要图。 为了验证本模型具有跨领域性,实验选取了常用的两个领域的语料库,分别是从Citysearch New York提取的Restaurant领域的评论和从Amazon提取的Electronics领域的评论。实验结果表明本文提出的理论较以往研究有较大的提高,从而证明本模型的正确性。 本文内容主要分为五章,第一章从各个方面介绍了本课题的研究背景和研究意义,分析了当前国内外研究者在观点挖掘领域的研究现状。第二章详细介绍了细粒度观点挖掘的几种任务,分为情感分类、观点抽取和观点分析,同时介绍了本课题中涉及到的数学知识和模型基础。第三章针对本课题提出的TSU MaxEnt-LDA模型进行了系统全面的介绍,然后详细描述了该模型生成文档的全过程及其求解推理过程。第四章通过介绍仿真实验,并对实验结果进行细致透彻的分析,验证了TSUMaxEnt-LDA模型理论的正确性。第五章是课题研究总结和未来的改进研究方向。