论文部分内容阅读
随着数码摄影设备和互联网的飞速发展,随着手机和平板电脑等移动设备技术的不断进步,越来越多的图像、视频等超文本媒体信息不断涌入人们的视野并且持续传播扩散。面对如此大规模的图像数据,如何有效的进行管理、组织和检索,已经成为学术界和工业界面临的重要问题。本文主要研究的是用自然语言的词语或者长文本对纯图像进行标注或者描述。这是一种解决图像理解和图像检索中语义鸿沟的策略,最终目标是对于一幅图像,能够用关键词、句子甚至文本片段来进行描述。将复杂的图像特征表述问题转化为简单的语言描述问题的研究有比较长的历史,但如今仍有很大的发展空间。使用图割的方法分割静态风景图像并且标注出关键字便是本文已有的工作基础。然而在研究静态图像中动作识别和检索的过程中,如果能够对图像进行高层复杂语义的标注,例如用一句话或者一段文字描述图像中的语义信息,将会是十分有意义的工作,这能够进一步提高图像语义标注的完整性,比单纯关键词和标签的标注含有更加丰富的信息。本文提出了一个简单的方法针对静态风景图像进行描述其关键标注物体的相对位置关系的语句的自动生成,生成的句子的主要成分包含主语、谓语和宾语,谓语是描述相对位置关系的介词或介词词组。本文的主要工作包括:第一,提出了一种模型,生成以基于图像内容的注释为基础的句子,也就是由一个已标注的静态图像生成句子。图像已经被分割为多个区域(使用图像分割),每个区域的特征也被计算出来。给定一个已标注的训练集图像,我们首先通过解析图像获取其位置信息,然后,利用筛选收集的句集,使用机器学习得到标注和介词之间的组合的概率,将获取到的数据应用到文本集中。我们使用一个标准的语义表示来表示图像信息。最后由标准的语义报表根据语句模板产生自然语言。第二,对上述模型进行改进。通过优化中间桥梁和添加检索进行定位方法部分的改进,通过引入第一区域和第二区域的概念实现语句生成部分的改进。实现了子图和其所带的特征参数作为隐含的条件,而且对图像内容的理解更具有针对性。由文中给出的实验可以看出,本方法的参数由子图获取而不是从原始图像获取。而且,与大多数侧重于动作检测为重点的同类工作相比,这个方法可以在风景类静态图像中获得很好的效果。文章随后给出方法的改进,使语句由原始图像生成,而把子图和其携带的信息作为隐含条件。总体说来,本文所获得了预期的结果。希望未来的工作能将此方法迁移到图像中的其他内容识别中,同时能够格式化和优化复杂的长句,能够实现真正的“看图作文”。并且能够将图像生成语句应用于图像的检索、排序、分类、标注中去,体现其真正的价值。