基于答案类型预测的视觉问答模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cnwan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,人工智能技术不断发展,问答系统作为其重要组成部分,受到了业界广泛的关注,如个人助理、智能客服等应用实例不仅提高了用户粘性,而且有利于企业降低人工成本,为问答系统的研究打下了坚实的基础。随着计算机科学与技术的飞速发展,人们不再满足于以文字、语音为载体的交流方式,多模态问答系统成为了新的研究热点。视觉问答任务作为多模态问答系统的典型,受到了国内外研究学者的广泛关注,该任务的主要目标为正确回答对相关图片的提问,虽然目前的视觉问答模型已经有了良好的表现,但是在实际应用中仍然存在着答非所问的问题,如提问颜色,得到的回答却是数量,该情况的发生严重降低了视觉问答模型的可靠性。本文以答案类型的预测作为切入点,首先根据提出的问题进行答案类型的预测,获得相应的类别信息后,将其融合到视觉问答模型中,从而降低答非所问情况的发生,提高模型的可靠性,准确性。本文的主要研究工作有以下三点:(1)基于问题信息分析的答案类型预测研究。由于视觉问答数据集中的问答对类型差别明显,且并未给出对应标签,所以首先进行数据集标注。利用长短期记忆网络等多种深度学习技术搭建答案类型预测模型,提取问题文本特征信息,并将其进行分类,获取最终分类信息。(2)基于深度学习技术的视觉问答模型。利用卷积神经网络、循环神经网络、注意力机制等深度学习技术搭建视觉问答模型。整体采用Seq2Seq架构,利用Resnet、目标检测等计算机视觉技术挖掘图像信息,采用LSTM等网络挖掘问题文本特征,使用多种多模态融合技术将图像与问题相融合,最后获得问题答案。该模型在最终的对比实验中取得了良好的结果。(3)基于答案类型预测的视觉问答模型。基于上述两部分研究内容,将答案类型预测模型与视觉问答模型将融合,利用修改注意力机制、第三模态融合等多种方式将答案类型信息融合到答案生成过程中,以指导整体模型答案的生成,降低答非所问情况的发生。最终模型的类别准确度和整体的性能都有所提高,符合本次研究的预期结果。
其他文献
由于立法对股权登记对抗效力中“第三人”范围规定模糊不清,导致审判实务中对“第三人”作一般化认定,凡涉及到股权登记对抗效力问题均有认定为“第三人”之现象,使得案件审
电子与原子/分子相互作用同很多研究领域的物理现象都有着重要的联系,如等离子体物理、天体物理、大气物理、辐射化学和生物学,涉及弹性散射、电离、解离、激发、复合和电荷
随着互联网的发展和天网工程的推进,监控摄像头安装数量增长迅速。截止2019年,全球在各类建筑空间有7.7亿个监控摄像头投入使用。到2020年,中国安装摄像头数量预计达到6.26亿
先前经验往往影响认知和学习,重复启动效应是其中较为典型的现象,即刺激的重复出现能够提升人的反应速度或降低反应错误率。该效应在教学中则体现为利用重复学习和复习来提升
随着无线通信技术的飞速发展,信道编码技术作为保证信息传输可靠性和高效性的重要技术手段之一,在复杂的无线通信环境中面临愈加艰巨的挑战。在许多无线通信环境中,发射端难
随着全球化进程的加速,跨国犯罪的数量和规模不断攀升,移管被判刑人作为国际刑事司法协助的方式之一,日益受到世界各国的普遍关注和重视。欧洲是移管被判刑人法律制度的发源
水声通信是目前唯一可以实现水下长距离传输的通信方法,但多变又复杂海洋环境会影响声信号的传播,导致水声信道的时变性和随机性较强。有效的跟踪水声多径信道有助于探查水下
近年来,随着中国经济的飞速发展以及中国国际地位的显著提高,越来越多的国际友人对中国产生了浓厚的兴趣,开始学习中文和了解中国文化。从2002年起,国家汉办开始举办“汉语桥”世界大学生中文比赛,“汉语桥”比赛不仅为世界各国学习中文的大学生提供了一个舞台来展现其汉语能力,也为汉语的国际推广做出了有力的贡献。本文以第17、18届“汉语桥”世界大学生中文比赛决赛试题为研究对象,以对外汉语教学作为研究的切入点
在21世纪这个信息化时代,多媒体教学已然成为现代化教学的一大趋势,网络资源已成为全球共享的公共资源。作为全球资源共享的工具,多媒体已成为不同地区之间相互沟通的纽带。
钙信号在细胞的许多生理进程中都起着重要作用,保持胞内钙离子的平衡对细胞来说至关重要,而胞内钙平衡是由一些钙泵、钙离子交换体、钙离子通道、酶等共同参与调控的。瞬时受