基于图像标注的图像内容文字描述生成

来源 :山东大学 | 被引量 : 0次 | 上传用户:heshark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数码摄影设备和互联网的飞速发展,随着手机和平板电脑等移动设备技术的不断进步,越来越多的图像、视频等超文本媒体信息不断涌入人们的视野并且持续传播扩散。面对如此大规模的图像数据,如何有效的进行管理、组织和检索,已经成为学术界和工业界面临的重要问题。本文主要研究的是用自然语言的词语或者长文本对纯图像进行标注或者描述。这是一种解决图像理解和图像检索中语义鸿沟的策略,最终目标是对于一幅图像,能够用关键词、句子甚至文本片段来进行描述。将复杂的图像特征表述问题转化为简单的语言描述问题的研究有比较长的历史,但如今仍有很大的发展空间。使用图割的方法分割静态风景图像并且标注出关键字便是本文已有的工作基础。然而在研究静态图像中动作识别和检索的过程中,如果能够对图像进行高层复杂语义的标注,例如用一句话或者一段文字描述图像中的语义信息,将会是十分有意义的工作,这能够进一步提高图像语义标注的完整性,比单纯关键词和标签的标注含有更加丰富的信息。本文提出了一个简单的方法针对静态风景图像进行描述其关键标注物体的相对位置关系的语句的自动生成,生成的句子的主要成分包含主语、谓语和宾语,谓语是描述相对位置关系的介词或介词词组。本文的主要工作包括:第一,提出了一种模型,生成以基于图像内容的注释为基础的句子,也就是由一个已标注的静态图像生成句子。图像已经被分割为多个区域(使用图像分割),每个区域的特征也被计算出来。给定一个已标注的训练集图像,我们首先通过解析图像获取其位置信息,然后,利用筛选收集的句集,使用机器学习得到标注和介词之间的组合的概率,将获取到的数据应用到文本集中。我们使用一个标准的语义表示来表示图像信息。最后由标准的语义报表根据语句模板产生自然语言。第二,对上述模型进行改进。通过优化中间桥梁和添加检索进行定位方法部分的改进,通过引入第一区域和第二区域的概念实现语句生成部分的改进。实现了子图和其所带的特征参数作为隐含的条件,而且对图像内容的理解更具有针对性。由文中给出的实验可以看出,本方法的参数由子图获取而不是从原始图像获取。而且,与大多数侧重于动作检测为重点的同类工作相比,这个方法可以在风景类静态图像中获得很好的效果。文章随后给出方法的改进,使语句由原始图像生成,而把子图和其携带的信息作为隐含条件。总体说来,本文所获得了预期的结果。希望未来的工作能将此方法迁移到图像中的其他内容识别中,同时能够格式化和优化复杂的长句,能够实现真正的“看图作文”。并且能够将图像生成语句应用于图像的检索、排序、分类、标注中去,体现其真正的价值。
其他文献
云服务聚合作为实现云计算按需服务的关键技术与研究热点,目前已经取得了一些有价值的经验成果。然而,这些理论大都以服务质量(Quality of Service,QoS)为驱动,侧重从功能性需求、
由于指纹具有唯一性、稳定性和使用方便性,指纹识别已经成为主流的生物特征识别手段,在许多领域得到了广泛的应用。指纹识别包括预处理、特征提取和匹配等过程。指纹图像分割
在高速发展的信息时代,随着网络技术和规模的不断发展,信息安全已经成为全球性的重要问题之一。入侵检测技术作为新一代安全保护技术,它对计算机或网络中发生的事件监视和分
由于互联网中信息爆炸式的增长,导致用户很难直接发现有用的信息。为此,根据用户的历史行为数据进行建模的推荐系统吸引了学者的广泛关注,可以一定程度上缓解信息过载的问题
移动自组网Manet(Mobilead-hocnetworks)是由若干带有无线收发器的移动节点所组成的无基站的自治网络,广泛应用于军事、民用、商业等各个领域。在商业领域中,诸如电子商务、网
k最近邻居问题(kNN)是空间数据库研究领域最基本的问题之一,是指在特定空间中寻找离查询点最近的k个目标点,包括几何空间,道路空间等。道路空间中的kNN变种包括连续k最近邻查
随着网络技术日新月异的发展,越来越多的单位采用各种基于网络的应用系统,以提高管理效率和服务水平。各单位为了不同的业务需求部署了多种网络应用。在不同的应用系统中,大
学位
近年来,云计算技术越来越受研究者欢迎。利用云计算技术,无线传感网可以支持从底层到上层应用。无线传感网一旦部署到目标区域,就能够对目标区域进行实时感知,这都得益于网络
学位
随着网络信息技术的飞速发展,基于网络的贸易、娱乐、通信和教育等活动也逐渐发展起来并在实际中得到了越来越多的应用,网络活动的安全性问题也受到了越来越多的关注。认证技