情感标签抽取相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：shaomingfang

【摘要】

：

随着Web2.0技术的蓬勃发展,互联网上产生了海量的用户评论信息,如何从这些评论中挖掘出有价值的信息,越来越受到研究者们的关注。从产品评论中挖掘意见信息,一方面可以帮助用

【作者】

：

刘鸿宇

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2010年期

【关键词】

：

情感分析情感标签评价对象评价词句法路径

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web2.0技术的蓬勃发展,互联网上产生了海量的用户评论信息,如何从这些评论中挖掘出有价值的信息,越来越受到研究者们的关注。从产品评论中挖掘意见信息,一方面可以帮助用户在购买产品时作出决策,另一方面可以帮助商家即时了解用户对自己产品的意见。情感标签由评价对象和评价词组成,包含了用户评论的详细信息,能够有效地体现出用户评论的核心内容。为此,本文针对情感标签抽取中的三项任务:评价词集构建、评价对象识别以及情感标签抽取进行了深入研究。在评价词集构建中,为了构建准确且全面的评价词集合,本文采用了融合语义知识库和大规模语料库的方法来获取候选评价词集合,进而通过候选评价词在语料库中的上下文为其设置置信度,根据置信度来度量候选评价词正确的可能性,最终选取置信度较高的评价词构成评价词集合。使用本方法构建的评价词集合参加了第一届中文倾向性分析评测中的任务一,取得了较好成绩。在评价对象识别中,本文首先基于短语结构获取候选评价对象集合,进而针对评价对象具有领域相关性的特点引入了基于网络挖掘的PMI(Pointwise mutual information)值过滤方法,针对评价对象中的名词冗余现象引入了名词剪枝算法,最终对评论句进行分类,以评价对象集为基础找出评论文本中用户进行评论的评价对象。本方法实现的系统参加了第一届中文倾向性分析评测中的任务三,取得了较好成绩。情感标签抽取方面,本文提出了基于短语句法路径的情感标签抽取方法,本方法通过句法关系挖掘评价词与评价对象之间的修饰关系,解决了就近查找方法存在的经验性过强问题,同时,本文采取全自动的句法路径库获取方法,解决了传统人工制定规则方法存在的规则覆盖不全的问题,最后,本文在句法路径匹配的过程中引入了编辑距离进行松弛,从而有效的提高了系统召回率。最后,针对传统情感标签抽取方法无法解决的隐式标签抽取问题,本文尝试使用主题模型对文本进行情感标签标注,提出了基于互信息和基于概率相似度的两种具体标注方案,实验结果表明主题模型在抽取隐式标签时能够起到一定的作用,本文最终对主题模型应用于情感标签标注存在的问题进行了详细的分析。

其他文献

教与学优化算法的改进研究及其应用

教与学优化算法(Teaching Learning based Optimization Algorithms,TLBO)是近年来提出的一种新颖的群体智能算法,模拟的是现实生活中教师教学与学生学习从而提高学习成绩的

学位

教与学优化算法多教师自适应步长虚拟物流配送

SPH算法的修正及其在混合流模拟中的应用研究

现实世界中的流体现象十分丰富，其中，最有趣，最具挑战性，也最复杂的现象主要来自于流体与其他物体交互的过程。近年来，有关流体与静止或者运动物体的交互已经引起计算机图形学研究

学位

光滑粒子流体力学混合流模拟密度修正法两相流计算机图形

室内场景中的人体行为识别算法研究

人体行为识别技术是指计算机通过分析视频序列,实现计算机自动检测视频图像中的人体行为并识别行为具体类型的过程。行为识别的本质是时变数据的分类问题,论文通过研究室内日

学位

行为识别时空特征深度信息词袋模型无监督式学习

词汇动态特性与金融指数的相关性分析

金融股市是国民经济的晴雨表,也是国家宏观经济发展的重要表现,因此了解金融股市是把握国家经济发展趋势的一个有效方向。然而金融股市是不断变化的,要了解、读懂它较为困难,

学位

自然语言处理词汇动态特性财经文本Adaboost相关性分析

Ad hoc网络MAC协议的研究与改进

无线Ad hoc网络无中心的特点要求MAC机制不能依赖于某固定节点，因此，集中式的MAC机制不适合无线Ad hoc网络，无线Ad hoc网络的MAC机制必须分布实施。然而，无线Ad hoc网络的固有特

学位

Ad hoc网络MAC协议退避算法网络吞吐量

多投影及移动投影增强现实技术

增强现实是虚拟现实中的一项前沿技术。随着视觉相关的前沿技术的发展和相机,投影仪等硬件设备的成本越来越低,基于投影仪相机的系统将会带来很多其他显示设备所不具备的乐趣

学位

迭代补偿光度补偿光度融合多投影系统动态光补偿

基于多QoS约束的网格计算任务调度算法研究

网格计算是高性能计算的一种方式,是近年来兴起的热门信息技术之一,它结合了传统的分布式计算,高性能计算等多种计算方式于一体。网格计算将网络上空余的多台计算机转化为自

学位

网格计算任务调度满意优化遗传算法多QoS约束

基于可信计算的组播数字指纹技术的研究

随着多媒体技术和网络组播技术的飞速发展，越来越多的内容提供商选择组播作为多媒体内容的发布平台，而在组播环境下的数字产品的版权保护问题也变得越来越尖锐，组播数字指纹技术

学位

版权保护组播数字指纹组密钥管理可信计算

调节系数的BP神经网络在字符识别中的研究

BP神经网络是当前获得最广泛应用的神经网络模型之一,但其也存在固有的缺点,例如收敛速度慢、易陷入局部极小、网络结构难以确定等,这些缺点受到越来越多的科研学者的高度重

学位

BP神经网络字符识别调节系数权值训练次数

基于嵌入式的动态可复用软件模型的设计与实现

近年来,软件业的信息化、网络化、智能化的发展非常迅速,这也使得基于嵌入式系统的开发技术取得了一定的进步与发展,因此嵌入式应用系统也已慢慢渗透到我们的生活和生产的各

学位

软件复用嵌入式系统组件技术基于组件的软件开发组态软件

情感标签抽取相关技术研究

其他学术论文