论文部分内容阅读
随着计算机技术的迅猛发展,多媒体技术的发展也随之空前繁荣,多媒体设备在人们的生活中也充当着越来越重要的角色。视觉作为人们获取信息的最为重要的来源,因此图像、影像等信息与生活中的各个方面都息息相关,为人们的工作、学习等提供了极大的便利。技术发展的同时也为人们带来了更多的考验,如今每天都会产生海量的数字图像信息,如何在如此大规模的图像数据库中进行很好的分类,如何在短时间内准确的寻找到用户所需要的目标图像已经成为了广大学者们热衷研究的课题。因此,图像检索技术得到了快速的发展,成为了计算机技术的热门研究领域。从基于文本的图像检索技术发展到基于内容的图像检索技术,目前,基于内容的图像检索由于具有良好的检索效果,相比与基于文本的图像检索技术减少了人为的复杂劳动和主观误差等问题,已经是图像检索领域的主流技术。在基于内容的图像检索中,图像的特征表达算法决定了图像检索的效率,其中较为常用的是视觉单词袋方法(即BoVW)和局部聚集向量描述子(即VLAD)。视觉单词袋模型在图像检索应用中有着很好的效果,因此有着广泛的应用,但随着局部视觉特征的增加,在应用时需要更多的聚类中心,因此会急剧增加计算量,同时由于只关注特征点的数量信息而使得很多特征信息的损失,图像特征表达能力减弱。局部聚集向量描述子(Vector of Locally Aggregated Descriptors,VLAD)是对图像全局信息的表达,通过局部视觉特征点与其分配到的聚类中心的距离值的组合,相比于视觉单词袋模型有着更高的精确度,但由于其视觉单词数目的限制和缺少全局描述子分布状况的信息,也很大程度上影响了图像检索的效率。针对以上问题,本文采用子聚类算法与数据分布熵相结合的办法来提高图像特征的表达。子聚类能够有效的解决VLAD由于视觉码本小、特征空间划分不充分而导致特征信息丢失的问题。数据分布熵是通过计算在每个聚类特征空间中的坐标和尺度三维信息得到的,数据分布熵包含着全局特征点分布状况的信息。将上述二者相结合能够进一步保证图像表达中拥有更多的图像信息。在本文的实验中,首先通过k-means算法对图像数据库中的SIFT特征进行聚类,得到视觉单词码本,划分视觉特征空间,在每个特征空间中再进行k-means运算,获得子聚类的视觉单词码本,划分子聚类特征空间。在每个子聚类空间中计算局部特征点与其被划分到的聚类中心的距离值的和,获得子聚类的图像表达。在子聚类的基础上加入数据分布熵,结合了子聚类与熵的优点获得更好的图像表达。在本文的实验中,应用了在图像检索领域很有代表性的Holiday数据库和Oxford数据库进行实验验证。实验效果显示,相比于原始VLAD和子聚类,在加入熵值以后有着更好的检索效果。因此,经过本文的原理分析与实验验证结果表示下,本文算法有着更好的检索效率,也会带来更好的用户体验。