基于图卷积网络的视觉问答研究

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:jojochen812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向.视觉问答需要跨模态的理解与推理能力(图像与文本).由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上有一定的潜力,因此提出了一种基于图卷积网络的视觉问答方法.首先使用神经网络分别提取图像和文本特征,再用图处理模块将预处理后图像和文本处理为图结构数据,然后实现基于图卷积网络的模型设计,数据训练与答案预测.通过与ReasonNet和BottomUp等模型在VQA2.0数据集上进行对比实验,验证了该方法提升了视觉问答任务的准确率.
其他文献
针对现有情感分析模型将卷积神经网络(CNN)和循环神经网络(RNN)建模分离的状况,论文提出了一种基于双向长短期记忆网络(Bi-LSTM)和CNN相结合并带有注意力机制(Attention)的文本分类模型.模型先获取上下文语义特征,再融合局部语义特征,同时对每一时刻的特征信息给予多个不同权重关注.实验表明,该模型可以有效地增强分类语义特征的捕获能力,比使用单一神经网络或者它们的任意两两组合,该模型不论在训练速度还是在预测准确度方面都有很好的改善.
随着信息共享时代的发展,海量数据的诞生对推荐系统提出了更高的要求.针对微博的海量数据,提出了一种融合朴素贝叶斯分类和基于用户的协同过滤算法的混合推荐算法.该算法将文本关键字作为特征属性,利用贝叶斯分类法筛选出用户可能感兴趣的数据,缩小推荐结果集;然后采用基于用户的协同过滤算法,通过计算用户相似度,根据最近邻居得到推荐结果列表.实验结果表明,混合推荐算法相比较于单一的推荐算法有着更高的准确率.