基于分层图像文档模型的图像语义自动标注

来源 :复旦大学 | 被引量 : 0次 | 上传用户:myzhijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体信息检索中的图像检索问题一直是研究领域中的热点。90年代初,人们提出了基于内容的图像检索方法(Content-based Image Retrieval,简称CBIR)。该方法摒弃了传统手工给图像标注文本关键字的方法,直接根据图像的视觉信息来进行检索,节省了手工标注非常昂贵地开销。但是基于内容的图像检索方法也有着明显的缺点,它需要用户提供一幅样例图像或是描述图像的视觉特征,如各颜色分量的分布。与传统的关键词检索相比,用户使用检索系统的复杂性大大增加了。 图像语义的自动标注的提出就是为了克服人工标注的高代价低效率以及CBIR系统的复杂性这两个问题,但是图像底层视觉信息与其所蕴含的上层语义信息并不存在显式的映射关系(简称“语言鸿沟”),这一问题就是图像语义标注领域的核心问题。 图像语义自动标注方法一般通过对一组已人工标注关键字的图像训练集,来学习文本关键词与图像视觉信息之间的关系。本文的方法首先把训练集图像分割成区域,每个区域用一个特征向量来表示,然后我们采用一种基于熵最小化的决策树特征离散方法来得到离散的视觉特征(视觉单词),建立视觉单词库,用视觉单词来描述图像的视觉信息。提出图像文档模型的概念,以图像、区域、视觉单词三层结构的方式来表达一幅图像,在此基础上使用文本检索中的向量空间模型进行图像的自动语义标注。 在通用的5000幅实验图像上进行的对比实验显示,该方法的标注性能明显超过了Co-occurrence模型,CMRM模型,Translation模型等已知的基于离散化方法的图像标注模型,标注的时间开销明显小于连续模型CRM。
其他文献
随着网络与电子商务的发展,多媒体作品以及软件产品以数字格式在网络传播将成为主流方式。因此不可避免的带来了版权的问题。同时由于数字产品的易拷贝性,使盗版变得非常容易
最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问题——大量垃圾邮件的涌现,这也
能源问题是制约我国当前经济社会发展的重大问题。科学合理的节能手段应当将建筑运行节能与人的舒适度综合考虑,既要满足人的舒适性需要,又要避免能源的过度浪费。随着我国建筑
软件水印是一种新型的软件保护方式。根据水印被加载的时刻,可以将软件水印分为静态水印和动态水印。动态水印保存在程序的执行状态中,更有可能用于实际应用。基于动态图的软
网格利用互联网将分散在不同地理位置的计算机整合成一台“虚拟超级计算机”,以便实现资源的全面共享和协同。如何实时准确地监控与发现网格中资源的状态和配置情况是网格的
自上个世纪九十年代以来,信息隐藏技术已经成为信息安全领域的新热点之一。用于版权保护的数字水印技术和用于隐蔽通讯的隐写术是信息隐藏的两大重要应用。信息隐藏检测作为信
铸造充型、凝固过程数值模拟技术是改变铸造行业落后面貌的有力手段,采用此项技术可降低废品率,加快产品生产和设计周期,从而提高经济效益。作者基于中北大学铸造工程研究中
人脸识别是模式识别研究领域的重要课题。在过去几十年,人脸识别的研究更多地停留在理论意义之上,自20世纪80年代末90年代初以来,随着信息安全的重要性日益突出,人脸识别技术在应
多对象最近邻查询(All Nearest Neighbors Query)[1]在地理信息系统、城市规划和资源分配等领域有广泛的实际应用,也可作为模式识别和分类[2]、某些聚类算法或应用的核心模块[
在计算机视觉与图像处理的研究中,有关边界的探索一直是一个很基础的课题。本文研究的中心问题,是如何将图像中检测出边界连接成有意义的线条。这是计算机高层视觉的一个重要问