面向隐喻识别的多模态隐喻数据集的构建

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:rangman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐喻普遍存在于人类的日常表达中,据统计,平均每三句话就包含一句隐喻。隐喻是一种常见的语言表达方式,也是一种重要的认知手段。人类习惯于借助已知的具体概念来描绘未知的抽象概念。准确地识别出隐喻现象能够帮助人们更好地理解复杂的抽象概念,深入地挖掘语言中的深层含义。目前,隐喻识别已经成为自然语言处理领域中的一个重要问题,被广泛应用于信息抽取、观点挖掘、机器翻译、情感分析等任务中。随着社交媒体的蓬勃发展,语言的表达方式也呈现模态多样化的趋势。隐喻的认知结构决定了其具有多模态的特点。目前,多模态隐喻的相关研究尚处于起步阶段,可利用的大规模、高质量的语义资源十分匮乏,因而阻碍了研究的进一步发展。为了解决上述问题,本文开展了如下工作:(1)本文构建了一个大规模、高质量的多模态隐喻数据集。本文基于概念隐喻理论、广义多模态隐喻定义和多模态语篇特点,提出了三个类别的多模态隐喻概念界定方式。遵循数据集构建的原则,利用远程监督的方式,通过构建检索关键词集来锁定数据检索的范围。运用爬虫技术获取数据,并针对数据的特点进行相应的处理。制定规范化的标注方案,以众包的形式进行标注。设立质量监控机制选拔可靠的标注者,采用两种标注一致性度量指标进行标注评估。利用主流特征提取技术进行基线实验,验证数据集的可靠性。(2)本文提出了基于多任务学习的多模态隐喻识别和多模态情感分析研究框架。为了深入探索数据集在应用方面的多样性,本文对多模态隐喻相关的识别任务进行了标注,从统计分析的角度展示了多模态隐喻及其关联语言现象的关系。利用跨模态注意力机制捕获模态间的动态交互关系,根据各个模态的贡献程度来合理地分配权重,同时更新各个模态的信息。进一步引入多任务学习的思想,利用任务间的关联关系提高模型的识别性能。
其他文献
随着无线传感技术的日益发展,利用分布广泛和细粒度的Wi Fi信号实现人物的身份认证逐渐成为可能。其中,基于Wi Fi物理层的信道状态信息(Channel State Information,CSI)的人物身份认证方法备受关注。同时,由于Wi Fi信号可以穿过墙体传播,所以在穿墙场景下基于CSI的身份认证研究是一个重要的研究课题。虽然当前的基于CSI的人物身份认证研究有了很大的发展,但是主要是在非穿
在黄昏、夜晚以及阴影遮挡等复杂光照条件的影响下,成像设备所采集的图像通常存在亮度低、色彩失真等问题,导致图像视觉效果变差,退化成为低光图像,严重影响了计算机视觉系统的性能。通过对低光图像进行增强处理,能够有效改善图像质量,为高级计算机视觉任务提供优质输入,提高系统性能。因此,对低光图像增强算法的研究工作具有重要意义。本文将围绕低光图像增强展开相关的研究工作。首先,论文介绍人眼视觉成像原理、色彩恒常
城市道路交通流预测有助于相关部门对交通供求协调以及制定交通管理计划,同时也为出行者路线规划提供有利依据,也是智能交通系统ITS(Intelligent Transportation System)研究和应用的核心组成部分。然而交通流预测也是一个复杂的课题,该课题从对交通特征建模的数理统计分析到以知识发现的智能预测方法为主体的预测经历了巨大的演变,智能预测方法以大规模数据为基础、以深度学习为核心、以
放射治疗是治愈癌症的强力手段,而医生准确诊断则依赖于多种模态医学图像(如MR、CT图像等)所提供的综合信息。CT图像为制定放射剂量所必需,但其拍摄时具有辐射性,且某些情况下CT图像诊断价值并不高,另外不同医学图像间的严格配准也较为复杂和费时。因此准确高效地从MRI图像直接转换为CT图像能够为患者减轻经济、健康负担,为医生节省时间精力,具有较大的意义。目前,相对于传统方法精度和速度不足的问题,现有方
背景:生长激素具有免疫调节、促进细胞增殖及蛋白合成等生理作用,已被证实可以促进急慢性创面愈合。目的:构建过表达生长激素的脂肪干细胞系(生长激素-脂肪干细胞),并探究其对成纤维细胞增殖迁移能力的影响及其分子机制。方法:(1)体外分离并鉴定脂肪干细胞;(2)构建生长激素过表达慢病毒,将脂肪干细胞分为生长激素组、空载组、对照组,以上3组分别转染生长激素过表达慢病毒、空载慢病毒或不进行传染;(3)RT-q
随着社会的发展,海量数据在给人们带来生活便利的同时也带来了困扰。以用户购房为例,海量房源数据使用户容易陷入信息过载的泥潭,难以获取到有效数据;并且区位资源已经成为用户购房考虑的重要因素,但是用户难以将自己对于区位资源的需求同房源数据关联起来。本文针对以上用户购房时遇到的问题进行设计实现。系统由六个模块组成,分别是数据台账、查询统计、区位资源、房源推荐、房源对比和个人信息。数据台账模块展示整体房价和
基于草图的图像生成是计算机视觉中一个亟待解决的重要问题。对于手绘草图来说,不同用户对同一个对象的表达有巨大的差异,这要求算法模型能够学习草图类别内部巨大的差异。并且,草图与图像之间存在着尺度与纹理间的巨大差异,这种特征之间的鸿沟使得草图生成图像模型训练更加困难。为了填补草图与图像之间的特征鸿沟,本文提出了由草图到边缘图,再由边缘图到图像的两阶段草图生成图像模型,并应用该模型实现了基于多类别草图的图
当下的工业物联网(Industrial Internet of Things,IIo T)包含了承担多种不同业务的节点。IEEE 802.11ac/ah协议共同应用于IIo T中,可以满足复杂的传输需求。信道绑定技术和限制接入窗口(Restricted Access Window,RAW)机制是IEEE 802.11ac/ah协议在媒体访问控制(Media Access Control,MAC)层
网格作为工业界建模,模拟,有限元分析计算以及多媒体,游戏开发等计算机三维图形应用中几何物体的表示方法,在信息时代中起着不可或缺的作用,它使简单的模型文件可以显示在屏幕上,进行动画渲染以及仿真计算。在计算机图形领域的快速发展的当下,网格的生成与相关算法成为该领域的一个热点。现在的表面网格中,广泛应用的有三角形网格和四边形网格,而四边形网格由于其适用于纹理贴图与离散计算的特性,更是发挥着越来越重要的作
计算机视觉在体育视频方面已经越发的成熟,并且在很短时间内获得了长足的发展。其中目标跟踪是热门研究方向之一,多目标跟踪是现阶段要解决的难点问题。本文目的是在现有目标跟踪算法基础上,针对足球转播视频的场景下进行改进,完成对小目标球员的跟踪,并将算法应用于移动端进行实时跟踪。在预处理阶段,本文对于原始的足球转播视频存在大量镜头切换的现象,提出基于主色率和帧差阈值双阈值限定的视频镜头检测算法,对原始足球转