基于深度学习的唐卡图像目标检测算法研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:nx002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唐卡图像作为中华民族的文物瑰宝,其内容题材涉及宗教、历史以及民俗等诸多方面。对唐卡图像头饰和台座进行目标检测不仅可以有效地帮助人们理解图像中蕴含的丰富内涵,亦为推进文化强国提供了基础。由于唐卡图像具有背景信息复杂、检测目标外观复杂且多样以及图像质量低等特点,进而对唐卡图像的目标检测提出了更高的要求。基于深度学习的目标检测算法取得了丰硕的成果,然而由于唐卡图像自身的特殊性,头饰和台座的检测在检测精度和速度上还有着提升的空间。针对上述问题,本文选取唐卡图像中的头饰和台座进行检测研究,其主要研究内容和创新点如下:(1)建立唐卡图像目标检测数据集。从学校图书馆和美术学院收集883张唐卡图像,处理成统一的格式;其次,使用精灵标注助手对唐卡图像头饰和台座进行矩形框标注;最后对标注数据集进行分析,发现各样本类别间极度不均衡,利用翻转、高斯噪声和随机遮挡等方法对唐卡图像进行增强,从而提高了检测算法在唐卡图像目标检测中的泛化能力。(2)针对唐卡图像有着背景信息复杂、检测目标外观复杂且多样以及图像质量低等特点,常规的检测器难以有效检测目标、存在漏检问题。本文以YOLOv5检测算法为基线,提出层次化视觉Transformer和注意力机制双重优化的目标检测算法。首先,利用Focus模块对输入图像切片,通过Swin Transformer提取切片后的图像特征;其次,利用卷积核融合不同层的特征信息,得到多尺度特征图;最后,使用自注意力机制对Neck模块融合的特征进行处理。实验结果表明,改进后的YOLOv5算法检测精度比原始的YOLOv5算法提升了5.12%,其检测精度亦优于其他主流的目标检测算法。(3)考虑到YOLOv5算法中固定Anchor损害了算法的普适性,此外大量的候选框生成也影响着检测算法的性能。本文进一步结合唐卡图像的特性,以Anchor free的YOLOX为基线,提出了一种改进YOLOX的唐卡图像目标检测算法。首先,利用坐标注意力机制融合了Darknet53特征提取网络提取出来的特征图,加强了远程依赖信息和精确位置信息;其次,提出了一种新的特征融合方法Trans FPN,其在特征融合时能更好地丰富了全局特征和上下文特征的语义信息,提高了检测目标的准确率。实验结果表明,改进的YOLOX算法具有更好的检测精度,在唐卡图像上检测精度提高了6.4%。
其他文献
都市题材油画风景属于风景画的一种,它对风景画的拓展和发展有一定的积极因素。都市题材来源于城市生活,它主要通过描绘城市生活场景,反映人们的生活及城市的发展变迁。近年来都市题材风景油画被更多的艺术家所关注,艺术家通过油画艺术媒介对都市风景进行的创作各不相同,他们通过对都市新变化的表现和对都市历史文化的追忆,反应社会现实和城市发展,这对油画的发展有积极影响。本文对都市题材风景油画分三个部分进行论述。第一
一、目的1.对上睑进行大体解剖学研究,观察上睑各组织解剖学结构特点及其毗邻关系,同时模拟上睑成形术,主要观察提上睑肌-Müller’s肌复合体的解剖学特点、来源、止点、与周围组织的毗邻关系。2.对上睑行组织学分析,在组织学水平观察并分析上睑各结构组织学特点。重点关注提上睑肌及其腱膜和Müller’s肌的组织学特点及毗邻结构关系,为上睑精细化手术提供组织学依据。3.根据大体解剖学和组织学的结果,基于
分级诊疗制度作为新医改中五项基本医疗卫生制度的首要任务,是重新构建国家医疗卫生服务体系,合理配置资源、提升服务效率的重大决策,对落实“健康中国”战略,合理配置医疗资源、促进基本医疗卫生服务均等化,缓解群众“看病难、看病贵”问题具有重要意义。分级诊疗政策的最终目标对是对国家医疗服务体系布局的调整,是患者流、资金流、政策流的重新集聚、重新洗牌。作为一项系统工程,牵涉利益相关方众多,如政府及相关部门、各
羽毛球运动的发展离不开羽毛球裁判,一支业务能力强、服务水平高、综合能力硬的裁判队伍在比赛中不仅能够保证比赛的顺利进行,使羽毛球队员顺利进行比赛,发挥出自己的原有水平,而且能够提高羽毛球运动观赏水平,调动全民参与运动的积极性,促进羽毛球运动的快速发展,实现全民健身的良性循环。在全民健身政策的支持下,各项运动发展有了长足的进步,同样羽毛球运动水平也在不断提高,比赛的对抗性、激烈程度、观赏程度也随之提高
随着国际经济合作不断深入,各国间竞争日益激烈,而科技创新又是国家核心竞争能力的综合体现。而现阶段,我国经济逐渐步入“新常态”,自主创新已经成为国富民强、经济持续高速发展的重要途径和源泉。而企业作为市场经营的主体,是创新活动的主要承担者,只有将创新置于首要位置,才能提升自身核心竞争力,进而促进经济可持续发展。2018年4月,随着中兴被美国重启禁购令的消息传到国内,举国震动、敲响自主研发的警钟,因此如
文学后阅读是新媒体时代对传统文学阅读的变革,呈现出“日常生活化”、“多元化”、“情景化”、“碎片化”、“互动性”和“社交性”等主要特征,在数字媒介时代日益取代传统的文学阅读,成为大众文学阅读的主要方式。本文基于豆瓣和B站平台,将文学后阅读置于媒介景观视域下进行研究,能够看到媒介所提供的独特阅读景观。本文首先对后阅读概念的形成与发展进行梳理,以阅读史上的三次革命为背景,以后现代主义为文化依托,以全新
写作作为一种重要的输出技能,能够清楚地反应学生的英语语言综合运用能力,一直是高中英语教学的重要环节。同时,2017年版的《普通高中英语课程标准》对高中生的写作能力提出了更高的要求。但迫于高考的压力,我国大部分英语教师都更加关注学生的写作结果,却忽视了如何引导学生对相关语言进行输入和有效的输出,导致了“学”“用”分离的现象。文秋芳教授及其研究团队针对这一现象,经过近十年的不断探索、发展与完善,成功提
乳腺癌作为女性多发的癌症疾病之一,其发病率逐年上升且发病人群逐渐年轻化。早期的发现与干预治疗对于提升病人存活率具有重要意义。凭借着高敏感度与特异性,MRI检测技术成为了检测乳腺癌的重要方法并已广泛应用于临床。乳腺磁共振影像肿块分割与影像异常诊断也成为计算机辅助诊断领域的重要研究内容。近年来,基于深度学习的诊断辅助系统相对于传统方法来说已有了不小的突破,但由于MRI乳腺图像具有病灶区域与背景区域比例
随着现代计算机技术和动画技术的飞速发展,人们对三维唇形动画的真实感提出了更高的要求。目前人脸运动捕捉系统能够合成较为真实的人脸动画,在电影和动画领域中已经广泛应用。本文基于人脸运动捕捉系统采集藏语拉萨话元音的发音运动数据,通过动态视位分析及动态视位模型的构建,实现输入语音数据到模型中能够生成唇形序列运动数据,用来驱动三维虚拟唇形发生形变,形成语音与动作匹配的三维唇形动画,最终合成藏语拉萨话元音动态
2014年,我国发生第一起债券违约事件,此后债券违约事件频发。债券违约的原因可能是企业脱离自身最优的资本结构,盲目地进行过度负债。因此,债券违约浪潮为我们敲响警钟,企业是否普遍存在过度负债现象,导致企业过度负债的原因是什么,值得我们去思考。通过对经济不确定性、过度负债及同群效应相关文献的梳理,发现现有文献已发现企业债券违约呈地区聚集性,但关于宏观经济不确定性与企业负债同群效应之间关系的研究很少。在