跨语言文本情感分类技术研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:bitao6633620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类旨在通过计算机技术,对文本中表达的主观情感倾向性进行判断,通过充分挖掘和分析文本生产者的兴趣倾向和情感态度,为决策者提供有价值的重要参考信息。由于国内外有效的高质量分析语料、情感词典等分布不均,使得跨语言文本情感分类研究应运而生。跨语言文本情感分类是利用源语言的有标注语料,辅助目标语言进行情感倾向性分析,其核心问题是解决如何将源语言和目标语言转换到同一语言空间中。根据国内外不同语言空间的转换手段不同,可将其分为三类:利用双语词典、平行语料库建立两种语言的对应关系以及利用机器翻译技术等三种研究方案。本文对上述三种方案分别作了相应尝试,主要贡献包括以下几个方面:(1)提出了一种在主动学习框架下的单语言文本情感分析方法SLAB。该方法中的采样策略是在不确定性采样策略的基础上,使用情感词典,在选择最不确定的样本的同时,也选择情感分数较大的样本,弥补了不确定性采样策略的不足,从而达到提高分类器准确率的目的。应用上述主动学习中提出的采样策略实现一种跨语言文本情感分类方法AL-CLSC。该方法首先利用机器翻译技术,将英文文本翻译为中文,然后通过主动学习方法,主动选择“好的”训练样本,通过循环训练,最终实现一个较好的中文文本情感分类器。进一步地,本文结合图结构模型对所提出的方法AL-CLSC进行改进,提出GAL-CLSC方法,以期解决机器翻译训练语料时,可能造成的信息丢失、重复及偏差等问题。实验结果显示,在不同的训练集中,该改进方法对分类器的准确率确有明显提高。(2)考虑到近年来神经网络在文本情感分类任务中的突出表现,本文提出两种分别结合RNN和CNN的深度典型相关性跨语言文本情感分类方法DCCA-RNN和DCCA-CNN。该两种方法是利用平行语料,在深度典型相关性的理论基础上,通过RNN和CNN学习两种语言空间的非线性关系,在映射的共享特征空间中利用典型性相关实现跨语言文本情感分类。
其他文献
目的:本研究以“阴阳锻炼”与“五点支撑”两种锻炼方式对健康男大学生进行对比研究,通过比较分析两种锻炼方式锻炼前后多裂肌硬度、腰椎活动度及核心肌适能测试的数据变化,
背景:全身麻醉术后恶心呕吐(PONV)是外科全麻手术后常见的并发症之一,乳腺癌患者全麻术后恶心呕吐(PONV)发生率高达30%-40%左右,严重影响患者的生活质量和对术后康复。目的:
在近现代历史中,新疆与中亚两地哈萨克人互有往来、迁徙,形成了跨国民族。在新疆定居的一部分哈萨克人又移居到中亚,具有了华人华侨的一些特点。现在我们所称的哈萨克族华人
大量标准件装配是飞机设计过程中的技术难点,本文针对该问题提出了可工程实用的标准件自动装配的方法。本文利用CATIA V5二次开发及MBD技术,通过相关接口从装配件模型中提取
<正>当前,数字化音乐教学资源在教学上的应用愈来愈普遍,究其原因,在于计算机多媒体技术的迅猛发展,以及人们教学观念的更新。小学生的心理特点是活泼好动,注意力集中时间短,
最近,我国四川省阿坝州九寨沟县发生了7.0级地震,再次引起社会的广泛关注。有数据显示,地震造成的人员伤亡和财产损失大多数都是由建筑物倒塌所致。因此,房屋在地震中的安全,
在自动喷淋系统中,格栅状管网相对传统枝状与环状具有更可靠、安装方便与节约管材的特点,但由于其水力计算的复杂以及目前介绍得较少,使其在实际应用受到了限制。文章通过对
歌德在《浮士德》中塑造了数以百计的各色人物,其中的浮士德和糜非斯托贯穿全剧始终,而浮士德的形象内涵最为丰富。歌德笔下的浮士德体现了人类在不断发展和探索中的迷茫与困
随着科学技术的不断发展,装备产业在未来的发展中将向着智能装备方向发展。因此,加速智能装备产业的发展,有利于提升我国新型工业化的进程。本文分析了我国智能装备产业的现
在推进国家治理现代化进程中,完善的社会救助体系是有效缓解社会底层群众物质及精神生活贫乏,有效消减人民内部矛盾的重要制度性手段。应充分认识现代化进程中完善社会救助体