基于深度学习的视线追踪技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:qwedddessf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
眼动交互普遍应用在行为学分析、医疗辅助和智能化系统中。眼动交互的关键技术为眼动追踪和眼动行为识别。随着人工智能出现,眼动追踪和眼动识别应用了深度学习技术,实现了无需眼动仪也可完成相应的追踪和分类任务。本文重点就基于卷积神经网络(CNN)的视线追踪和眼动行为识别技术进行研究,主要工作有:1.基于卷积神经网络的视线追踪技术研究。基于卷积神经网络的视线追踪包含了独立于人(person-independent)的视线追踪和特定于人的(person-specific)视线追踪。特定于人的视线追踪通常对模型进行微调来校正偏差,需要利用个人样本。当个人样本数量有限时,需要利用有限的样本有效地降低视线追踪误差。我们针对如何选取有效样本的问题进行了研究。首先我们采用Res Net作为通用视线追踪模型,再将通用模型作为从个人样本中提取特征的工具,利用SVR对特征进行回归,来获取不同样本的平均误差。我们使用Unity3D做样本采集程序,在用户注视校准目标的过程中采集图像作为样本数据,通过改变校准目标的位置分布来获取不同的样本。我们设置了两种分布模式,每种分布模式具有不同数量的目标,目标数量对应个人样本的数量。实验验证,随着个人样本数量增加,视线追踪误差降低;在校准样本数量相同的情况下,校准目标按照规律分布的样本比校准目标按随机分布的样本的平均误差低0.2到0.4cm。2.眼势识别研究。眼势识别属于眼动行为识别。眼动行为识别的目的是根据注视信息区分不同种类的眼动。眼动交互中的眼动行为主要分为注视、眨眼、扫视和平滑追踪。其中采用扫视形成的轨迹进行交互的方式为眼势交互。通常眼势识别是通过眼动仪采集注视数据并分析,再对眼势进行分类。本文采用了一种基于外观的眼势识别方法,采用卷积神经网络和长短时记忆网络(LSTM)识别眼势。LSTM对单步长眼势识别效果好,但对多步长眼势的识别率不高。针对这一问题,我们采用Bi LSTM代替模型中的LSTM单元,对多步长眼势进行识别,与LSTM相比,分类准确率提高了18.42%。
其他文献
随着计算机视觉研究和工业生产技术的发展,现实场景感知技术已经在自动驾驶、室内机器人导航、场景识别等人工智能应用领域中得到广泛使用,其中语义分割技术是现实场景感知的关键步骤,它是指对场景数据进行逐元素的分类。以往的语义分割研究大多是面向图像的,而采用三维扫描设备采集的点云则是继图像视频等数据之后出现的新型数据,其包含更丰富的场景信息,目前面向点云的特征提取和语义分割已成为计算机视觉领域中的研究热点。
现代社会智能化发展飞快,公共场所监控摄像头越来越普及,相应的基于监控视频的行人目标跟踪技术也有着广泛的应用前景。近年来,深度学习迅猛发展,基于深度学习的目标跟踪算法性能也提升了不少,但在实际应用场景下,仍存在着许多挑战。本文对目标跟踪挑战中的相似物干扰以及目标遮挡挑战进行了深入分析,以行人为主要跟踪目标,提出了基于光流预测的孪生网络目标跟踪算法,以解决部分跟踪挑战,进而提升目标跟踪算法的鲁棒性。本
与单任务学习(STL)相比,多任务学习(MTL)通过在多任务模型中的任务之间共享信息以获得了更好的分类器。在多任务学习中,目标任务利用多个非目标任务的训练信号所拥有的相关经验信息来提升模型的泛化效果。在训练过程中,每个任务所携带的数据信息都是关于某一领域的信息,但各任务数据之间有所差别。大多数现有的多任务学习方法在训练过程中仅关注训练任务的相关数据,而忽略了训练任务中其他非相关但可能包含有用信息的
随着“云”及大数据时代的到来,校园对出口通向Internet的带宽流量要求越来越高,只要校园网络的内部带宽高于校园出口的带宽,在校园网络的出口边界上都会出现流量瓶颈。当网络出口流量出现瓶颈时,网络管理员能否快速调整网络配置策略以平滑网络流量,成为衡量网络管理水平的重要标尺。本文从作者所从事的网络建设与管理工作实践出发,对校园网络系统架构进行研究,调研分析了目前市场上流行的网络监控系统主要是对网络设
随着分布式、大数据、云计算等信息技术以及传感器和嵌入式等硬件技术的快速发展,使得CPS技术在解决工业中实际应用场景的问题有了多种多样的解决方案。复杂工业中大数据下的CPS系统任务调度过程中容易因为数据高并发、资源异构、任务性质复杂造成系统负载不均衡,导致在任务调度过程中因任务量积累的负载增加无法进行均衡,直至系统宕机。即使目前有许多云计算调度算法能够很好的解决分布式集群系统中的负载均衡问题,但在C
素描画作为一种特殊的艺术风格图像,在信息传递、娱乐等地方都发挥着举足轻重的作用。它是视觉艺术中用于抽象人类对自然场景的感知的最基本的绘画语言之一,建立了指向艺术家视觉记录的紧密链接。随着手机摄像技术和互联网共享的普及,获得高质量的图片比构建艺术场景的模型要容易得多。因此,从照片中绘制铅笔素描的需求就会大大增加。目前,铅笔素描是被人快速完成的作品,并没有被加入很多细节。艺术家通常是使用素描来描绘整体
随着信息技术的发展以及移动终端的普及,互联网数据不断膨胀。海量信息在丰富人们生活的同时也使得人们难以定位到自己需要的数据。如何帮助用户高效地筛选有用的信息是当前大数据时代亟待解决的问题。推荐系统根据用户历史数据推断用户的兴趣爱好,帮助用户寻找需要的信息,能够在一定程度缓解信息爆炸问题。推荐算法受到学术界和工业界的持续关注,不同类型的技术被相继提出,其中一类代表性算法是协同过滤算法。协同过滤算法简单
步态识别作为一种生物识别技术,具有能360度全方位识别、识别距离远、难以伪装,不需配合等特点,相比传统生物识别技术用处更加广泛。太赫兹技术因为其无害安全便捷而在安检领域的应用越来越广泛,它用于安防场景可以发现人体隐匿危险品,从而定位可疑人物,通过被动式太赫兹人体步态视频图像准确识别可见光下对应的犯罪嫌疑人是我们亟待解决的问题。由于太赫兹视频图像只包含人体剪影,识别人物身份需要利用步态识别技术。研究
在如今的线上购物网站、在线社区和社交媒体中,文本评论已经成为研究人员研究用户行为和理解各种现象的最重要的数据源。在电商网站上购物多样性的兴起,使得人们每天都能在网上购买自己需要的商品,同时也可以随时表达自己对某件商品的感受和意见。文本评论的情感分析引起了政治学、市场营销、传播、社会科学和心理学等领域的研究人员的关注。分析评论文本的情感倾向,在线上购物网站和社交媒体上研究用户行为是一个重要的研究方向
移动互联网的快速发展,极大推动了人们对基于位置服务的需求。作为基于位置服务要素之一的定位自然而然成为人们关注的重点。根据定位技术的适用范围,我们将定位分为室内定位和室外定位。对于室外定位已经有卫星定位这样成熟且已大规模应用的解决方案,与之对应的室内定位则还在研究阶段,原因在于室内环境的建筑结构复杂,人员流动频繁以及电磁环境复杂,导致室内定位误差较大。本文针对室内定位误差较大,准确度不高的问题,提出