图像中文自然语句生成技术的研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:q43372958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是一项非常具有挑战性的任务,旨在使用适当的自然语句自动描述图像的内容。此任务涉及计算机视觉(例如:对象识别,场景分类,属性和关系检测)和自然语言处理技术(例如:生成连贯的句子来描述从上一步中识别出的这些对象)。它不仅需要识别图像中显著的对象,理解它们之间的相互作用,而且还需要使用恰当的自然语言表达其中的语义知识。随着深度学习领域的快速发展,许多新的方法被应用到计算机视觉与自然语言处理中,图像描述的方法也在不断改进。然而,大多数研究者致力于生成英文的图像描述,对如何生成图像中文描述的研究工作较少。由于中文表达方式与语法构成的复杂性,如何提高生成的中文自然语句质量仍是一个挑战,但也拥有广泛的应用场景,如人机交互、图文互搜、医学诊疗等。在已有的图像中文描述的研究工作中,由于数据集的限制只能生成如“街上有很多人”简单的中文描述,而不能生成如“一个翘着二郎腿的女人搂着一个戴着红领巾的小男孩坐在教室里”拥有丰富的形容词的中文描述样式。为了解决上述问题,本文设计并实现了多种图像中文描述模型,进行相关的对比试验与消融实验。论文主要工作如下:1.本文提出一种带有注意力机制的双层LSTM图像中文描述模型,在相应测试集上 BLEU-4、METEOR、ROUGE-L、CIDEr-D 的得分分别为 40.3、35.4、60.8、120.4,与基线模型相比各指标得分均有2%以上的性能提升,尤其是CIDEr-D的得分由114.2提升至120.4,性能提升约5.4%。2.本文通过更换图像编码器模型、堆叠LSTM语言模型的层数、添加注意力机制三种手段,构建不同的图像中文描述模型,进行对比试验与消融研究,从不同的角度验证本文提出的带有注意力机制的双层LSTM图像中文描述模型能够生成更加准确的中文自然语句来描述图像中内容。本文提出的带有注意机制的双层LSTM图像中文描述模型能够捕捉更多的图片细节,具有更强的语言解码能力。文中提出的模型及其变体在图像中文描述数据集AIC-ICC上进行了实验,并使用BLEU、METEOR、ROUGE-L、CIDEr-D评测指标进行评测。实验结果表明,本文提出的带有注意力机制的双层LSTM图像中文描述模型优于其他方法,且实际的生成效果也表明模型能够生成更加准确多样的中文自然语句。
其他文献
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库
语音增强的目标是抑制噪声,增强期望的语音信号。基于信号处理的传统语音增强方法为了简化计算或获得解析解做了许多假设,在低信噪比与包含非平稳噪声的场景下会出现严重的性能下降。基于深度学习的语音增强方法具有强大的非线性映射能力,在拥有大量训练数据的前提下有望超过传统方法。目前,基于深度学习的主流增强方法通常将语音增强任务建模为全频带谱映射问题,间接忽视了语音增强领域过去几十年的经验积累。基于信号处理的传
语音增强旨在利用信号处理技术及各种算法提高语音的质量与可懂度。作为语音识别系统的前端模块,它在语音交互、电话会议、听力辅助以及军事窃听等场景中发挥重要作用,得到了学术界和工业界的广泛关注。与传统方法相比,基于深度学习的语音增强方法在应对低信噪比以及非平稳噪声方面表现突出,但在一些方面仍然存在不足。深度学习框架下的语音增强方法,通常使用均方误差(MSE)作为优化模型参数的目标函数。但一些研究表明,具
随着物联网的发展和移动设备的普及,室内位置感知服务需求与日俱增。基于位置指纹的无线室内定位技术因原理较为简单、成本相对较低和普适性强的特征受到了学术界和工业界的广泛关注。现有研究表明,通过优化室内环境中Wi-Fi接入点和低功耗蓝牙(Bluetooth Low Energy,BLE)基站的部署位置可提升定位精度,但仍然存在以下问题:(1)采用启发式搜索算法易得到局部最优解,并且解决大场景问题时,需耗
随着研究人员对英文语音识别和语音合成技术的深入研究,英文发音词典作为这两项技术中连接声学模型和语音模型的重要一环,其构造方法也有了很大的发展。但是,现有的英文发音词典构造方法仍然存在着例如依赖于语音和文本平行语料、数据采集困难、专家标注成本高等一系列的问题,因此需要研究更有效的方法提升发音词典构造效率。为解决上述问题,本文开展了基于非平行语料的英文发音词典构造方法的研究,主要内容如下:首先,本文针
语音是我们生活中使用最为普遍和方便的交流方式,而且每个人由于生理特征和行为的差异,导致所发出的声音特征也不尽相同。从理论上来说,任何两个人的声纹信息都各不相同。声纹识别就是根据该理论,通过对比分析不同说话人之间的声纹特征差异,从而识别出说话人真实身份的一种新型生物认证技术。SOPC,是一种基于FPGA的片上可编程系统。基于SOPC的声纹识别系统,具有体积小、稳定性好且开发成本低的优势,其应用前景非
随着蒙古语智能信息处理技术的飞速发展,蒙古语语音合成技术已经达到实际应用水平,可以合成高音质的语音,但是情感表现力还有待提高。语音信息不仅仅是对文字的陈述,同时还需要包含很多的副语言信息,比如语速、语调、情感等。要想更好地将文字转化为拟人化的语音,合成带有情感的语音是必不可少的。研究蒙古语情感语音合成技术不仅能够扩展语音合成应用场景,还对推动蒙古语智能信息化发展具有重要意义。本文研究内容如下:1.
关于妨害传染病防治罪所侵犯的客体是单一还是多数学术界一直有着不同的观点,主要焦点在于本罪所侵犯的客体只是单一的国家对传染病的预防与控制的管理秩序,还是除此之外也侵犯不特定的多数人的生命、健康安全。本文认为本罪所侵犯的客体应该由两个方面构成,因为本罪设定于刑法分则中的“妨害社会管理秩序”一章,又因为不管行为人实行了条文中规定的五种妨害行为的哪一种,其后果势必会对人民群众的生命安全和健康安全造成一定的
虽然此罪名经过两次立法修正,且2015年最高院还对其进行了全面的司法解释,但是此罪名在司法实践的认定过程中仍旧存在较多问题有待我们去解决,例如:本罪构成要件中的“掩饰、隐瞒”的“其他方法”存在含义不明、“明知”的认定不清以及“犯罪所得”的定义模糊,另外由于本罪与其他“赃物犯罪”的界限会产生歧义,使得本罪在定罪方面无法准确化。针对上述问题,笔者结合近年典型司法裁判案例,深入剖析其中的问题所在,以罪责