论文部分内容阅读
物体检测是计算机视觉领域的一项重要技术。一般来说,物体检测的目的在于检测图像或视频中出现的特定语意对象,例如行人,建筑,人脸等。其中的一些领域,如行人检测和车辆检测等,已经有了较深入的研究。然而,目前流行的物体检测方法很少考虑大数据情况下物体检测的问题,比如需要在大型图像数据库中快速检测并定位图像中出现的某种物体的情况。“视觉词袋”是近年来在图像检索领域里十分流行的一种图像表示方法。简单而高效是这种方法的主要特点。该方法的核心是将图像的局部特征聚类形成“视觉词汇”,并将图像表示成包含视觉词汇的视觉文档。由于视觉词汇的可索引性,基于视觉词汇的图像检索与匹配算法一般具有快速高效的特点。本文提出了一种基于视觉词汇的物体检测方法,以达到在大型图像数据库中实现快速物体检测的目的。方法利用潜在语意分析(LSA)找到视觉词汇中的“关键词”,并基于关键词对目标物体的结构建立了模型,最终使用这种模型实现基于霍夫变换的物体检测。本文同时也对解决视觉词汇同义性和多义性问题进行了讨论。本文提出的检测方法对缩放和旋转变换具有不变性,并且对于遮挡,杂乱背景具有稳定性。在最后本文讨论了检测方法在检测不同种类的物体的准确性和效率,并分析了该方法的适用范围和应用前景。