基于主题情感统一最大熵模型的观点挖掘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:dropmylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务的大繁荣使得数以万计的用户开始通过网络购买各种产品、服务,并在线发表评论信息。许多消费者在购买某种产品或服务的时候,通常会先参考之前购买者的评论信息,获得直观的了解和认识。而商家则通过这些在线评论信息,获得用户对其产品的反馈信息。但是由于这些评论信息数量巨大,仅靠传统的人工阅读筛选方式很难快速有效地获取有价值的信息。因此,针对海量在线评论信息进行观点挖掘成为一个重要研究课题,得到了国内外研究者的广泛关注。  观点挖掘研究主要使用基于规则的方法、基于语言学的方法和基于统计机器学习的方法。基于规则的方法需要领域专家定义不同领域的特征词和规则,无法满足新词的不断出现,并且规则也不具有跨领域性。基于语言学的方法利用语言的语法特性规律识别特征词,但是不同语言的语法组织方式差异非常大,不具有跨语言性。上述两种方法的可移植性差,而且不能自动聚类到具有相似意义的主题下。LDA主题模型作为一种无监督统计主题模型不仅能够很好地克服上述方法的缺点,还不需要人工标记大量训练集,而这正是其他有监督和半监督统计模型所必须的,因此得到了研究者的广泛运用。但是由于标准LDA模型是一个词袋模型,没有考虑词的位置和语义信息,不适合用来提取细粒度领域特征词,同时由于模型是一个三层结构,也不适合进行细粒度观点挖掘,因此,需要加以改进后才能使用。  为解决该问题,本文在对标准LDA模型进行改进的基础上,提出了一个主题情感统一最大熵LDA模型(Topic and Sentiment Unification Maximum EntropyModel,TSU MaxEnt-LDA)对在线网络评论进行细粒度观点挖掘。首先,在传统LDA模型中加入最大熵组件,用以区分背景词、特征词和观点词;然后,通过加入指示变量,对特征词和观点词进行全局和局部的区分。最后,在主题层和单词层之间加入情感层,将传统的三层LDA模型扩展成四层,在提取特征词和观点词的同时进行情感极性分析,先获取每个主题的情感极性,再获取整篇评论的情感极性,最终生成细粒度的主题情感摘要图。  为了验证本模型具有跨领域性,实验选取了常用的两个领域的语料库,分别是从Citysearch New York提取的Restaurant领域的评论和从Amazon提取的Electronics领域的评论。实验结果表明本文提出的理论较以往研究有较大的提高,从而证明本模型的正确性。  本文内容主要分为五章,第一章从各个方面介绍了本课题的研究背景和研究意义,分析了当前国内外研究者在观点挖掘领域的研究现状。第二章详细介绍了细粒度观点挖掘的几种任务,分为情感分类、观点抽取和观点分析,同时介绍了本课题中涉及到的数学知识和模型基础。第三章针对本课题提出的TSU MaxEnt-LDA模型进行了系统全面的介绍,然后详细描述了该模型生成文档的全过程及其求解推理过程。第四章通过介绍仿真实验,并对实验结果进行细致透彻的分析,验证了TSUMaxEnt-LDA模型理论的正确性。第五章是课题研究总结和未来的改进研究方向。
其他文献
随着RFID系统能力的提高和标签应用的日益普及,安全问题,特别是用户隐私问题变得日益严重。为此,作者提出了一种新的RFID认证协议。作者认为基于公钥加密的RFID认证协议相对
随着现代无线电技术的发展,传统无线电标准繁多以及主要基于硬件开发的特点给电台之间的互通性、兼容性和可维护性造成了诸多困难。软件无线电的出现很好的解决了这些问题,特
手术仿真是计算机在医学领域的一个重要的应用,而该应用本身需要多学科、多领域的交叉;同时颌面部是人体生理结构中最为复杂的区域,也是临床手术最为重要的部位之一,颌面畸形
近年来,软件产业随着社会的发展可谓日新月异,软件应用的领域日益广泛,随着软件规模和复杂度的不断增大,传统的软件开发模式面临着巨大的挑战。而解决这个问题的行之有效的方
学位
电力系统短期负荷预测是电力系统安全和经济运行的重要依据,随着价格竞争机制的引入和电力市场改革的深入,电力部门对短期负荷预测的精度提出了更高的要求。支持向量机是一种新型的机器学习方法,具有全局最优、结构简单、推广能力强等优点,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。然而支持向量机在进行大数据量的负荷预测时存在数据噪声、收敛速度慢等缺点,针对这些缺点,本文提出了一种利用聚类分析选
随着光通信技术的飞速发展,光网络向着大规模、复杂拓扑、面向业务的智能化网络方向发展,对网络的生存性提出了更高的要求。为了定义网络的管理边界、提高路由和信令的性能、
图像工程根据研究方法的不同可以分为三个层次:图像处理、图像分析和图像理解,图像工程是三者的有机结合及它们工程应用的总称。图像滤波和边缘检测技术是图像分析和处理的基
植物叶片识别对于相关植物知识的普及和植物学相关学科的发展有一定的促进作用,对于研究植物的系统的进化具有很重要的意义。近年来,国内外在植物叶片识别方面的研究取得了很
自动抄表系统利用现代通信和计算机技术实现对远程流量计量器的实时监控与数量采集,提高企业的运营效率,方便用户的使用。自动抄表系统中数据收集转发器保障外部设备与远程流