情感标签抽取相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shaomingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的蓬勃发展,互联网上产生了海量的用户评论信息,如何从这些评论中挖掘出有价值的信息,越来越受到研究者们的关注。从产品评论中挖掘意见信息,一方面可以帮助用户在购买产品时作出决策,另一方面可以帮助商家即时了解用户对自己产品的意见。情感标签由评价对象和评价词组成,包含了用户评论的详细信息,能够有效地体现出用户评论的核心内容。为此,本文针对情感标签抽取中的三项任务:评价词集构建、评价对象识别以及情感标签抽取进行了深入研究。在评价词集构建中,为了构建准确且全面的评价词集合,本文采用了融合语义知识库和大规模语料库的方法来获取候选评价词集合,进而通过候选评价词在语料库中的上下文为其设置置信度,根据置信度来度量候选评价词正确的可能性,最终选取置信度较高的评价词构成评价词集合。使用本方法构建的评价词集合参加了第一届中文倾向性分析评测中的任务一,取得了较好成绩。在评价对象识别中,本文首先基于短语结构获取候选评价对象集合,进而针对评价对象具有领域相关性的特点引入了基于网络挖掘的PMI(Pointwise mutual information)值过滤方法,针对评价对象中的名词冗余现象引入了名词剪枝算法,最终对评论句进行分类,以评价对象集为基础找出评论文本中用户进行评论的评价对象。本方法实现的系统参加了第一届中文倾向性分析评测中的任务三,取得了较好成绩。情感标签抽取方面,本文提出了基于短语句法路径的情感标签抽取方法,本方法通过句法关系挖掘评价词与评价对象之间的修饰关系,解决了就近查找方法存在的经验性过强问题,同时,本文采取全自动的句法路径库获取方法,解决了传统人工制定规则方法存在的规则覆盖不全的问题,最后,本文在句法路径匹配的过程中引入了编辑距离进行松弛,从而有效的提高了系统召回率。最后,针对传统情感标签抽取方法无法解决的隐式标签抽取问题,本文尝试使用主题模型对文本进行情感标签标注,提出了基于互信息和基于概率相似度的两种具体标注方案,实验结果表明主题模型在抽取隐式标签时能够起到一定的作用,本文最终对主题模型应用于情感标签标注存在的问题进行了详细的分析。
其他文献
教与学优化算法(Teaching Learning based Optimization Algorithms,TLBO)是近年来提出的一种新颖的群体智能算法,模拟的是现实生活中教师教学与学生学习从而提高学习成绩的
现实世界中的流体现象十分丰富,其中,最有趣,最具挑战性,也最复杂的现象主要来自于流体与其他物体交互的过程。近年来,有关流体与静止或者运动物体的交互已经引起计算机图形学研究
人体行为识别技术是指计算机通过分析视频序列,实现计算机自动检测视频图像中的人体行为并识别行为具体类型的过程。行为识别的本质是时变数据的分类问题,论文通过研究室内日
金融股市是国民经济的晴雨表,也是国家宏观经济发展的重要表现,因此了解金融股市是把握国家经济发展趋势的一个有效方向。然而金融股市是不断变化的,要了解、读懂它较为困难,
无线Ad hoc网络无中心的特点要求MAC机制不能依赖于某固定节点,因此,集中式的MAC机制不适合无线Ad hoc网络,无线Ad hoc网络的MAC机制必须分布实施。然而,无线Ad hoc网络的固有特
增强现实是虚拟现实中的一项前沿技术。随着视觉相关的前沿技术的发展和相机,投影仪等硬件设备的成本越来越低,基于投影仪相机的系统将会带来很多其他显示设备所不具备的乐趣
网格计算是高性能计算的一种方式,是近年来兴起的热门信息技术之一,它结合了传统的分布式计算,高性能计算等多种计算方式于一体。网格计算将网络上空余的多台计算机转化为自
随着多媒体技术和网络组播技术的飞速发展,越来越多的内容提供商选择组播作为多媒体内容的发布平台,而在组播环境下的数字产品的版权保护问题也变得越来越尖锐,组播数字指纹技术
BP神经网络是当前获得最广泛应用的神经网络模型之一,但其也存在固有的缺点,例如收敛速度慢、易陷入局部极小、网络结构难以确定等,这些缺点受到越来越多的科研学者的高度重
近年来,软件业的信息化、网络化、智能化的发展非常迅速,这也使得基于嵌入式系统的开发技术取得了一定的进步与发展,因此嵌入式应用系统也已慢慢渗透到我们的生活和生产的各