【摘 要】
:
随着互联网的飞速发展以及社会化媒体的兴起,社会化媒体文本特别是包含情感信息的文本出现了爆炸式的增长。针对此类文本的舆情监控和群体性事件预测等问题的研究意义逐渐凸
论文部分内容阅读
随着互联网的飞速发展以及社会化媒体的兴起,社会化媒体文本特别是包含情感信息的文本出现了爆炸式的增长。针对此类文本的舆情监控和群体性事件预测等问题的研究意义逐渐凸显。在目前已经逐渐成熟的文本情感分析的基础上,对社会化媒体文本中较深层次信息的挖掘越显重要。作为其中的一个重要研究方向,文本情绪原因发现具有很大的研究价值和实际意义。本文主要研究利用大规模文本数据构建情绪认知常识库的方法,在此基础上研究结合认知常识库的文本情绪原因发现方法。主要工作包括:第一、设计并构建面向于新闻文本的情绪原因标注语料库。为此,设计了完整的标注体系和标注质量监控机制。目前已构建完成包含2105条情绪文本的原因标注。在该语料库上对情绪原因进行了结构分布与规则分布上的详细统计,以及不同类型文本的差异性分析,为后续情绪原因发现的研究提供了数据基础和理论依据。第二、研究认知常识库的自动构建方法和扩建方法。首先利用新浪社会新闻的读者情绪投票数据为线索,实现了对较大规模社会新闻语料的自动化情绪标注。利用这些大规模有标签文本挖掘与情绪类别相关的常识知识,自动构建带有情绪激发类别强度的认知常识库。考虑到此类常识库存在覆盖率不足的问题,本文设计实现了一种基于HowNet和同义词词林的常识库扩展方法,实现了认知常识库的有效扩展,使其在原有规模基础之上扩充了三倍以上。第三、研究基于认知常识库的文本情绪原因发现算法,使原因识别的F值相对基线系统提高了12.37%。在此基础之上进一步研究了结合常识库与规则方法以及结合常识库与机器学习方法的文本情绪原因发现算法,使原因识别的F值分别提高了1.27%和15.01%。本文研究显示认知常识库可以作为有效的知识来源和新的特征,进一步提高现有文本情绪原因发现方法的性能。
其他文献
特征选择是当前人工智能领域,尤其是机器学习领域的研究热点之一。随着人工智能和计算机科学技术的迅速发展,特征选择在理论和应用方面均得到了较大的发展。特征选择不仅可以去
随着互联网的迅速普及,电子书及作者资源变得越来越丰富,但在海量的资源中读者却越来越难以发现真正感兴趣的信息,而推荐系统能够快速地帮助读者选择感兴趣的、有价值的信息
近年来,无线传感器网络(Wireless Sensor Networks,WSNs)发展迅速,并逐渐成为连接物理世界和数字世界的一个桥梁。节点部署问题是WSNs设计的第一步,它对WSNs的覆盖,连通,能耗
随着网络技术的不断发展,以及高性能计算机、网格等为代表的日益强大的计算环境的出现,极大地改变了计算的含义及计算的方式,这使得用户可以通过网络使用这些强大的计算资源完成
伴随着网络技术的飞速发展,Web应用系统的使用越来越广泛,现在人们对Web系统又提出了更高的要求。在多层次的系统开发过程中,系统的移植性,扩展性和可维护性越来越受到人们的
由于传感器节点存在存储容量和传输带宽受限的问题,使得传统视频压缩算法在无线多媒体传感器网络(WMSNs)中的应用受到限制。因此,本文提出一种基于内容的视频压缩算法,该算法
随着网络技术与应用的快速发展,它正在逐步从提供单一数据传输,变成了一个能提供音频、视频、数据等多种业务的实体。由于音频与视频业务量的增加,导致UDP业务数据也随之剧增
为了跟上全球信息化的步伐,越来越多的政府、商业、金融等机构和部门将自己的数据库连接到Internet上。但是,随着各种攻击技术的不断发展,网络数据库的安全性交得越来越脆弱。如
随着计算机科学和信息技术的飞速发展,检测技术已经成为了一种关乎经济发展和科技进步的关键技术。由于技术上存在着不可避免的缺陷,目前很多检测问题陷入了无法测量的困境。
计算机检测与数值分析作为水泥石长期力学特性分析的重要技术手段,在固井配方水泥的性能评价中发挥着重要作用。建立水泥石长期力学特性的数学分析模型,进行自动数据切分成为