面向图文混排数据的多模态信息融合标注系统研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:miracle_l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字智能网络时代下大量文化数字化资源被汇聚,急需新手段新方法对文化资源进行有效合理的组织与管理。目前文化领域已经积累了大量专业的图文混排数据,即包含图像及其关联文本的数据,其特点是图像文本互关联,对图像的自动标注具有重要意义。本文将研究内容聚焦于文化领域专业的人文艺术书籍,以纹饰图像为研究载体,实现了对图文混排数据的数字图文处理与多模态标注。主要研究内容包括:(1)针对文化大数据对多模态数据的需求,提出了一种基于版面分析的自适应图文分离算法。以文化领域专业的图文混排书籍为数据源,结构化的提取出由图像、标题和描述文本组成的图文信息对,形成多模态数据标本库。(2)提出了一种面向领域词库构建的新词发现算法。算法以文化领域专业书籍文本为数据源,结合多种统计特征对基于信息熵和互信息的新词发现算法进行改进,完成了领域词库的扩展与更新,改善了通用分词工具对文化领域专业词汇切分正确率较低的问题,为后续图像标注算法奠定了基础。(3)基于图文分离算法、新词发现算法和领域词库提出了一种多模态信息融合的图像标注算法。算法采用基于PageRank的多模态信息决策融合的思路对图文两种模态的标注信息进行融合,在一定程度上保证了图像标签的丰富性与可靠性。(4)搭建了一个人文艺术书籍标注系统,对本文提出的图文分离算法、新词发现算法和多模态信息融合图像标注算法进行整合,具有一定的实用价值。本文围绕图文多模态数据集,提出一套合理组织文化资源的数字图文处理方法,并验证了所提面向图文混排数据的多模态信息融合标注方法的有效性。
其他文献
为做好《北京市生态涵养区生态保护和绿色发展条例》立法工作,2020年北京市人大常委会对全市的生态涵养区进行了调研。调研中了解到,门头沟区为加快落实乡村振兴战略、解决生
自从韩礼德和哈桑在1976年出版cohesion in English一书,衔接理论的提出引起国内外学者的重视。然而篇章衔接理论在外语教学方面,特别是在高中英语写作教学方面的应用还有很
词汇附带习得理念自20世纪80年代开始出现在语言学家和专业学者的研究范围之内,它不同于以往教学中所提及的有意学习,强调在完成其他学习目标的同时附带习得词汇。词汇附带习得理论是指学习者的注意力集中在完成写作、交际、阅读等任务的过程中,附带习得词汇。基于输入和输出假说、投入量假设和注意假设理论等,在阅读中影响词汇附带习得效果的因素主要有阅读任务、语篇、语境、词汇复现率和猜词策略。对来自韩国的高级水平的
学位
学位
当代国际经济和文化发展迅猛,港口成为联系各国彼此交流的重要纽带,“一带一路”发展战略下的港口更成为国家之间相互往来的重要门户和全球化“结点”。目前传统工业题材绘画形式较为单一,内容趋于怀旧,而本文着眼于体现时代的创新特色,将目光聚焦于海港题材绘画创作这一承载着海洋文化与海港精神的绘画题材上。随着全球化进程的飞速发展和各国人民海洋意识的逐步提升,海港题材绘画创作得到更为广阔的发展空间,该题材也逐渐成
学位
公共政策调整是增强政策过程科学性与精准性的必要环节,科学的政策调整能够在政府与公众的互动过程中及时解决社会问题,推动社会有序发展。而社会心态能够反映不同社会群体的多元利益诉求,对社会稳定和公共政策实施进程带来多方面影响,因而重视社会心态逐渐成为优化社会治理和完善政策内容的前提和重要保障。结合新时代背景和中国公共政策调整实际,也就是将社会心态的分析与引导融入到公共政策调整的全过程之中,及时关注公共政
社会经济的发展使得人们的生活方式发生了较大改变,电梯作为具体的代步公共设施开始出现在人们生活之中,给人们的生活带来的极大的便利但同样也给带来一定的威胁。各类电梯安
随着物联网技术的飞速发展,越来越多的感知设备接入物联网平台。这些物联网感知设备会产生大量的数据,对这些数据的管理是一项非常重要的工作。传统的物联网平台存在着数据处理模式固定、处理效率不高等缺点。为解决这个问题,需要设计一个通用的平台,让用户可以根据自己的需要完成对数据的管理。本论文旨在设计一个通用的物联网数据管理平台,可以连接各种不同的设备,应用于不同的行业,实现物联网的数据管理,包括数据接入、数