论文部分内容阅读
唐卡作为中华民族的瑰宝,是构筑中华民族共同体中不可或缺的精神和物质财富,对其进行数字化保护方面的研究具有重要的现实意义和社会意义。唐卡颜色丰富,背景复杂,画面中不同人物之间具有很高的相似性,人们想辨别图像中的这些人物并以此了解唐卡内涵是比较困难的,通过对唐卡中的法器、坐台、头饰以及人物本身进行目标检测有助于图像识别和语义理解方面的研究,也可以帮助唐卡鉴赏者更好的理解唐卡中的内容和所蕴含的意义。本文选取了唐卡中的26类人物、16类法器、4类头饰、2类坐台作为检测对象进行目标检测研究,构建了唐卡多目标图像数据集(TKMOID)和唐卡人物数据集(TKFD),为唐卡图像中目标检测和有监督学习模型的训练与评价提供数据支撑和基准。TKMOID使用了2079张图片,包含了6016个法器目标、5433个头饰目标和5148个坐台目标,TKFD使用了1693张图片包含了4327个已标注人物。以构建的两个唐卡数据集为支撑,本文主要的研究内容和创新点如下:1.针对唐卡图像背景复杂、目标密集、待检测对象具有长尾效应的问题,本文将使用解耦头和Sim OTA标签分配策略的YOLOX作为基线模型,在其基础上进行了改进,并提出了TK-YOLOX。该模型将Dynamic Head引入YOLOX中,增强了模型对尺度和空间的感知能力;利用CIo U Loss加速了模型收敛,引入soft-NMS进行了边界框的重叠过滤。实验证明,改进的模型在唐卡图像目标检测中效果比其他经典目标检测模型的性能高出10%-20%,m AP可达到52.1%,在唐卡多目标图像数据集上m AP达到54%。2.针对唐卡图像中的人物目标大、不同人物之间难以区分的问题,提出了一种多尺度跨层残差聚合特征金字塔网络MSRA-FPN。该方法将主干网络的语义信息汇聚到金字塔网络顶层,可以有效增强模型顶层特征图中的语义信息,从而增强了目标检测模型对大目标以及易混淆类别的检测能力。实验证明,在使用Retina Net作为基线模型时,本文所提出的特征融合方法在唐卡人物数据集上m AP值可以达到71.2%,并且在公共数据集PASCAL VOC 2007上也可以将基线模型的m AP值提高0.5%-1.9%。3.在上述目标检测算法基础上,基于Django、Bootstrap、JQuery、Echarts等框架设计和实现了一个唐卡图像识别与检测系统,该系统主要有唐卡图像识别、唐卡图像检索、唐卡关系图谱等功能,可以满足实际使用的需求。