论文部分内容阅读
目前,越来越多的应用需要将视觉数据翻译为自然语言。研究视觉信息与描述语言之间的关联成为一个重要的课题。VIMAC系统是北京邮电大学智能科学与技术中心研制的一个基于视觉信息的汉语词汇习得系统,该系统基于图像-语言描述对集合,为语言词汇建立基于视觉信息的表征,并能应用于图像描述的自动生成。本论文的研究基于VIMAC系统的工作,一方面在VIMAC系统研究成果的基础上展开,得到更细颗粒度的语言-视觉信息对,其中着重解决了在训练语料中未出现的未登录词的图像特征表示;另一方面又为VIMAC系统的改进提供了新的支持,可用于在图像的外部说明文本中发现和定位对应的视觉对象描述词汇,从而达到辅助进行图像检索的目的。基于VIMAC习得系统,我们可以获得词汇类别与视觉特征的对应关系,所以图像视觉特征及其描述词汇的对齐关键就在于为句子中的词汇确定其所属的范畴,也就是词分类问题。我们通过对图像描述句进行包括切分,词性标注在内的预处理后,基于知网提取图像描述语料中的关于颜色、大小、位置、形状的词汇,进行分类,最终将词汇与其相对应的图像的视觉属性对齐。本文同时对实现这一过程中的几个关键因素对最终性能的影响进行了分析。实验表明,对语料进行词性标注处理后,词语分类正确率大大提高;当训练语料逐步增加时,分类性能也逐步增加,但当语料达到一定规模后,性能基本也趋于饱和。之后,我们建立了一个数据库,将图像信息及其标注存储起来,便于之后的添加,提取,修改和管理。最后为了直观的显示,利用ASP技术,编制出动态网页,实现了特定图像信息的搜索。