基于深度学习的教室视频中学生异常行为检测研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zibinxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术的不断发展给网络技术推动人类文明进步提供了平台和导向。当今的信息化时代,监控视频广泛应用,使得智能视频获得了前所未有的发展。但是还未满足市场对其更人性化的需求,如一些固定场景下的实时行为识别检测、行为警报系统等应用。越来越多的人开始关注视频识别检测领域的发展情况,并进行科学研究和分析。在行为检测方面,相比于费时费力的传统方法,卷积神经网络算法因为其高速、准确的识别优势,使得很多相关领域的研究人员把研究中心转移到该方向中。本文针对教室视频中学生的异常行为进行检测,根据功能要求对该项目进行分析和研究,在深度学习的基础上进行目标检测模型的构建。因实验需要,本文将自制该项目所需行为数据集,并通过改进和优化人物行为检测算法,提高对小目标识别的准确率以及解决目标检测时出现的遮挡问题。为了验证本论文所提到的模型效果,将所提出的模型在公共数据集以及自制的教室视频行为数据集上分别进行训练和测试,并进行结果的分析和对比。本论文的主要研究工作如下:(1)针对当前网络上公开的数据集不能够满足本项目实验需要的情况,本文通过对教室上课实际场景录制,进行视频数据的采集,并采用专业的LabelImg工具进行行为标签的制作,以满足实验需求。(2)针对教室背景下学生异常行为识别检测的实际需要,本文基于深度学习的卷积神经网络结构,选用拥有实时性特征的YOLOv3进行目标检测,充分利用浅层信息对小目标特征信息的表征能力,将Darknet-53部分的第一残差块通过保留特征信息的空洞卷积后,与8倍下采样后的特征图进行融合,继而级联改进的RFB模块,即在RFB上添加一个分支进行周边特征的提取,从而增加对周边视野的参考,提高模型识别率。除此之外,在侧向连接的上采样中使用3*3以及步长为2的卷积操作代替最大池化操作,以便更充分地利用金字塔中的特征信息。本文将模型命名为Rs-YOLOv3,通过对原网络的优化,在保证速度、准确率的同时,小目标识别效果也有所改善。(3)本文研究的教室场景在现实情况下,容易出现人物遮挡现象,随着神经网络层数的加深,特征提取也会出现信息丢失的情况。本文将在Rs-YOLOv3基础上融合SE-Res2Net模块,增加各层网络的感受野,更细粒度地表示特征信息,实现多层特征复用,使设计的网络更加适用于本文场景。同时考虑到YOLOv3中采用的边框回归损失函数无法准确描述边框之间的交并比关系,本文提出用DIoU_Loss进行替换,增加了对重叠率和尺度等指标的参考,使模型回归更加稳定,并在一定程度上降低了漏检率。通过理论分析与实验得知,本文所提出的行为检测卷积神经网络适用于教室视频的学生异常行为检测,具有更快的识别速度以及更高的识别精度。同时本论文对类似的复杂、固定场景视频中人体行为识别检测算法的进一步研究具有重要意义。
其他文献
《1000以内数的认识》是学生在认识了100以内数的基础上教学的,旨在认识"千位"及其计数单位——"千",初步建立四位数的整数数位顺序,进一步体会相邻单位之间的十进制关系,并在此过程中有意识地培养学生的数感。这是教材第一次正式介绍"比100大的数",对于二年级学生来说,在生活中其实已普遍接触过,且绝大多数学生会读会写即将要学的"1000以内的数"。在这样的学情下,加之"数的认识"本身又有些枯
期刊
互联网的飞速发展,既孕育着机遇,又带来了挑战。一方面,许多网络社交媒介涌入人们的生活,如微信、微博、贴吧等,使得人们在发表自己的言论时不受时间空间的限制,互联网俨然成为了人们思想文化信息的集散地。另一方面,正是由于人们在互联网上发表的言论存在自由性强、受众面广、传播速度快和超越时空性等特点,为虚假违法消息的传播提供途径,容易导致舆情负面危机,互联网因此成为社会舆论的放大器。因此,如何用科学的方法预
人机对话,主要目标就是希望机器能够与人类进行流畅、自然的对话,从而便利人类的生活,满足人类的需求。为了增强对话质量,使机器生成的语句更像人类发出,涌现出了各种各样的人机对话系统。但是,在开放域中,如何能让机器清楚理解人类意图,明确对话目标,仍是一直在攻克的难关。因此,本文主要关注在开放域中的对话生成,该任务旨在生成更符合逻辑,与上下文衔接更紧密,更具有主题性和多样性的回复内容。本文的主要工作如下:
随着互联网技术的飞速发展,基于互联网的电商平台如雨后春笋般涌现,用户在这些平台上发表意见、抒发个人情感已经成为一种习惯,海量的评论数据随之产生,发掘出用户的情感倾向已经成为产品售后信息反馈的重要途径。目前文本情感分析任务中研究的对象主要是微博评论、电影影评、电商评论,针对线上课程评论进行情感分析的相对较少。但是线上教学已经成为我国中小学教育和普通高等院校教学中的重要组成部分,针对线上课程评论进行情
伴随互联网技术在我国公共教育场景的广泛应用与发展,深度学习技术助攻在线MOOC学习平台,为各行各业的教育研究者和学习者提供了便捷沟通和智能学习的渠道,开启了信息时代的教学新革命。MOOC在线论坛作为平台教学的重要辅助工具,平台课程讨论区存在的大量交互贴文本数据,隐含着学习者在参与论坛讨论过程中的各种话语行为及认知思维形态,基于深度学习技术识别学习者话语内容中潜在的认知行为类别,对研究MOOC论坛中
2020年新型冠状病毒肆虐全球,疫情防控迫在眉睫。为防止疫情扩散,正确佩戴口罩在人们的日常生活中至关重要。目前针对大范围人员流动场所一般配备检查人员进行口罩佩戴检测,该方式存在工作人员与他人接触感染的潜在漏洞,同时无法具备全天候监测等不足。通过运用计算机视觉技术解决口罩佩戴检测问题,不仅可以避免人员之间交叉感染的风险,而且能够有效化解当下疫情常态化防控难题。口罩佩戴检测在计算机视觉领域可以视为两阶
细菌是常见的人体微生物,影响着人类健康。但是随着抗生素的滥用,人体内某些有害细菌产生了耐药性,导致超级细菌的出现,成为人类面对的难题。噬菌体是以细菌为宿主的病毒,具有很强的特异性,可以在宿主体内进行自我繁殖,并使宿主失活。噬菌体疗法不易产生耐药性且杀菌效果强,其杀菌效率是目前常规抗生素的数百倍甚至数万倍。噬菌体疗法给医疗界带来了希望,但是通过传统的生物实验来寻找有效的噬菌体常常效率低。生物信息学基
随着信息技术的飞速发展,人们的生活正在发生巨大改变,人们对基于位置服务的需求越来越迫切,尤其是室内位置服务。室外定位系统中BDS系统、GPS系统等受室内复杂环境条件限制精度大幅下降甚至失效,难以在室内定位中发挥作用,而室内二维定位技术缺乏高程信息,也难以满足人们对室内位置服务的需求,三维定位技术普遍存在精度高时硬件成本也相对较高而难以大范围推广,硬件成本较低时定位的精度大幅下降而难以满足位置服务需
因果复句是汉语中应用最广泛,使用最频繁的复句,是汉语复句研究中不可缺少的一个重要部分。复句的研究首先是要理解复句的语义,这就需要对复句的关系进行识别。对有标复句来说,可以根据关系词来识别复句的关系,但关系词识别也是一个难题,有时一个关系词可以对应多种类别,这更为复句的关系识别增加了困难。目前,对于复句关系识别有多种方法,基于规则和基于机器学习的方法都太过依赖人工选择的特征,会存在人工构建特征稀疏、
量子色动力学(Quantum Chromodynamics,简称QCD)是一种描述夸克和胶子之间强相互作用的规范理论。QCD预言当达到一定的高温高密状态时,禁闭在强子态内部的夸克会解禁闭形成夸克胶子等离子体(QGP)。在低温高重子化学势区域,强子态到QGP是一级相变,且一级相变的终止点为临界点;高温低重子化学势区域为平滑过渡区域。对于QCD相图的结构,其中最重要的便是确定临界点的位置。目前理论认为