论文部分内容阅读
随着城市的现代化建设,当代城市越来越注重机器视觉与生活相结合的发展模式。在城市属性视觉方面的研究人员也越来越多,因为城市居民的身心健康,教育质量,社交活动都会影响人类对城市外观的视觉感知。科学家开始借助人工智能和视觉知识相结合的方法来研究城市属性视觉,目前大部分的城市属性视觉感知分析方法都是通过人类对图片分析,然后根据图片上获取的信息分析预测城市未来的发展。肉眼甚至人类的局限性都限制了人们对城市属性的预测能力。人与人的主观意识差别也影响对城市未来的预测。为此近几年提出了借助机器视觉动态分析城市属性。通过在市区架设摄像头,时刻捕捉市民的生活状况,车流情况,然后这些图像数据借助排序网络算法来预测人类对城市属性的感知情况。本文全部工作是利用了图像的感知属性类激活图来分析图像的基本信息,视觉词汇信息或语义信息特征,再通过利用获取的图像信息辅助预测城市未来的发展。借助这个思想以及相应理论,将图像的基础特征信息和语义信息融合到机器学习中,从而提高人们对城市未来发展预测准确度。大量的文献数据这证实了本文方法的可行性和优越性。本文的一个工作是通过图像比较对的形式把图形获取的网络特征从分类任务转化为排序任务。这样做可以避免了人类的判断受限制。然而以往方法采用的特征是深层卷积后的高层次特征,在心理学上图像的颜色和纹理信息是会影响人们的感知判断,以前的方法中都没有考虑到这些图像基础特征信息的重要性。所以本文在第一个工作中提出了一个全新的基于注意力机制的排序网络模型。该方法利用注意力机制把从对颜色和纹理进行预处理过的颜色特征和纹理特征再融入特征表示,然后运用该特征预测感知分数。本文运用更深入的学习方法量化城市环境感知和研究城市面貌与居民安全的关系,从而可以知道如何改善城市状况。然而,目前世界上最先进的方法单纯地使用卷积神经网络从原始城市的街道图像中提取图像特征表示,并没有考虑影响人类感知城市环境的认知因素。本文的第二个工作是第一个工作的延续,本文所提出的第一个方法受到颜色和纹理信息影响在不同的属性之间,影响效果差距较大,且此方法需要提前进行图像的处理,步骤相对来说较为繁琐。又因为低级特征中包含丰富的图像基础信息,譬如颜色,纹理,形状以及空间关系。高级特征中包含图像的抽象信息,譬如语义信息,低级特征和高级特征相铺相成。低级特征空间信息丰富,但是缺乏语义信,高级特征则与之相反。而人类对于图像的感知是极其丰富的并且感知因素很主观性容易不知不觉收到图像基础信息和语义信息的影响,采集的数据量大很难挨个去标注,导致研究者无法为所有的感知属性准备充分的标注,从而成为影响解决城市属性视觉感知问题的一个重大障碍,为了解决这个问题,本文在城市视觉感知中引入了多层次特征融合算法。多层次特征融合是计算机视觉中被广泛关注的目标检测方法之一。本文通过结合多层次的特征训练能够有效地利用到多层次信息,充分利用影响人们感知的图像基础特征和高层语义特征,从而得到更加符合人们的视觉感知特征表示并实现对新的图像在感知属性上的感知预测。本文对部分具有代表性的数据进行了标注与训练,然后用图像中的基础特征信息和物体语义信息挖掘感知属性与之间的关联。与其他排序网络方法之间的对比实验证明了本文提出的基于多层次特征融合预测方法的优越性。