论文部分内容阅读
物体检测是计算机视觉重要的分支,例如相机的人脸识别、自动驾驶汽车的车辆、行人检测等,它充斥在现代及未来生活的各方面,辅助人们完成相应的认知过程。目前阶段,物体检测任务普遍依赖全标记数据集如Image Net、PASCAL VOC等,这类数据集不仅给出了图像中物体的类别信息,还详细标注了物体的位置和大小,方便检测模型的训练。然而,在计算机视觉相关领域,绝大部分数据集是弱标记的,即只给出图像中是否存在该类别物体的标注,并不提供物体的位置和大小信息。而且,全标记数据集的获取需要手工标注,随着数据量增大,手工标注图像中物体的详细信息会导致极大的时间和金钱代价,因此全标记数据集相对于弱标记是一种稀缺资源。鉴于以上原因,本课题旨在于使用弱标记数据集完成物体检测任务,在输出图像中物体类别的同时给出该物体对应的位置信息,实现在弱标记数据集上物体检测的目的。本课题使用VOC2012数据集进行训练与测试,在训练阶段不使用物体级别的标注信息,将训练集当作弱标记数据集使用。模型首先在ILSVRC12数据集上进行预训练,使用特征迁移技术将特征从ILSVRC12迁移到VOC数据集上。使用滑动窗口技术扫描输入图像,每个滑动窗口产生一个得分向量,窗口得分越高表示该窗口包含物体的置信度越大,将高得分窗口及其位置输出,作为对物体及其位置的预测。本课题定义了滑动窗口检测的评价标准,分为单目标检测和多目标检测两类,用来描述模型检测结果的好坏。在该标准下,本课题实现的Weak Net模型达到了与R-CNN近似的检测结果,证明了本课题弱标记物体检测的有效性。