中文短文本未登录词发现及情感分析方法研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:jialulu0119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的蓬勃发展,微博微信等即时通讯工具随之出现,由于其具有简单易用,传播迅速等特点,日益成为大众日常重要的沟通交流工具,带有情感倾向的文本在网络上高速传播。因此,针对该类文本的情感分析对于产品口碑的跟踪以及社会舆情的监测等具有重要意义。新型社交媒介携带的信息相对简短,表达不规范,适应于传统长文本的分类方法不能机械的移植到短文本情感分类上。本文针对新浪微博、产品评论等短文本,以传统长文本情感分类方法为基础,探索未登录词及领域情感词的发现,基于深度信念网络(Deep Belief Network,DBN)对特征选择深度自适应学习以及基于Adaboost分类改进加强算法提高分类性能等方法弥补现有情感分析方法的不足。针对短文本特征密度低、非规范网络元素多等特点,本文主要从如下方面展开研究:(1)未登录词发现及基于规则的情感分类。该部分主要研究了基于概率统计及条件随机场进行未登录词自动发现,并利用互信息进行情感极性标注。同时利用哈工大句法分析与同义词林进行领域词发现及情感标注,最后基于改进扩展后的词典及判定规则进行情感倾向分类方法研究。(2)基于特征选择融合优化及增强的机器学习情感标注。该部分在实现基本机器学习分类方法的前提下,对比不同特征选择算法优缺点实现特征选择融合增强,引入支持向量机、逻辑回归等算法探究其对情感分类性能的影响,在实现上述方法的基础上引入Adaboost算法实现弱分类器性能的优化增强。(3)基于DBN的特征选择优化及情感标注。在DBN算法的基础上对候选特征集合进行自适应学习,运用包含上下文的语料资源利用Word2vec构建语义临近词预测模型分别实现篇章级别特征扩展以及同义词级别的特征扩展。最后对比不同方法验证特征提取质量以及分类方法的性能。本文通过对短文本情感分类方法的探究及改进,实现了未登录词的自动发现及情感词典优化扩展,能够有效的缓解文本内容简短、特征缺失等问题,并结合深度学习算法进一步提高了特征提取的质量,从而优化改进了情感分析方法的性能。
其他文献
派送调度问题是物流管理领域中一个重要的课题,是大型超市集团、大型零售连锁店、物流派送中心及工业生产企业共同存在的问题.文章运用DEDS(DISCRETE EVENT DYNAMIC SYSTEMS)
该文讨论了铁路地理信息系统中,采用分布式空间数据库系统与技术来实现海量空间数据的组织、管理和共享.提出了一种三层空间数据库分布模式的存储体系结构.空间数据库由中心
由于SOCKS5协议的扩展性强、安全性能好、灵活通用、便于网络规划和管理等优点,我们以SOCKS5为基础来建立应用层安全体系结构的实用模型.而性能问题对实用模型中SOCKS5服务器
移动IP技术为主机连接到Internet提供了无需改变节点IP地址的移动性支持.移动IPv6则进一步深入探讨解决了移动IPv4中的一些问题.而由于移动切换造成的延迟和丢包是移动IPv6中
在第三代移动通信系统中,WCDMA系统取得了众多运营商、系统提供商和终端制造商的青睐,但是目前所提供的系统都是基于R99或者R4标准,其UTRAN都基于ATM技术,而不是基于IP的.目
本课题分析了电力系统远动主站端软件的特点以及当前软件维护的发展趋势,结合VC++、Socket和CSCW等技术,提出了一种基于网络的电力系统远动主站端软件远程维护技术的计算模型,并将其在具体的工程实践中进行了测试。本模型以Socket技术为基础,并结合了CSCW,采用VC++为开发工具进行了计算模型的开发应用。本模型是一种多层的计算模型,为解决目前软件维护过程中存在的困难和问题提出了一种新的思考。
随着计算机网络技术的飞速发展与分布计算理论的日趋完善,分布式协同综合虚拟试验与测试成为航空、航天产品设计、研制与维护的主要手段。对分布式协同综合虚拟试验与测试环境
大数据时代的到来给海量数据处理带来了新的挑战,传统的多核架构难以满足大规模计算的需求,GPU和CPU在芯片上的结合是缓解大规模计算压力的一种趋势。对传统多核处理器而言,
协同设计是计算机支持的协同工作(Computer Supported Cooperation Work,简称CSCW)在工程设计领域的应用。航空基金课题(01I53074)——“分布式协同综合虚拟试验与测试环境研
该文针对电子合同处理系统的特点及其对安全性的要求,深入分析了具有代表性的几种多重数字签名方案,通过对安全性能、计算量、处理速度、可行性等方面进行综合比较,我们选择