基于单个RGB摄像头的虚拟键盘系统研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ydaf4rx3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着虚拟现实技术的快速发展,人机交互正在从传统基于物理外设的模式逐步转变为人机直接交互的虚拟模式。本文就从人机交互中最常见的键盘接口出发,研究适合室内场景下使用的利用单个RGB摄像头作为输入的虚拟键盘系统。但当前,基于计算机视觉的诸多人机交互虚拟应用在手部区域识别准确率、指尖点提取精度、对背景环境鲁棒性、用户易用性等方面仍有进一步完善的空间。因此,研究一套完整的、高精度的、贴近用户日常使用习惯的虚拟键盘系统变得十分具有现实意义。本文主要在以下两个方面展开了研究。一方面,对于虚拟键盘最为重要的指尖提取方法,传统算法存在着适用场景过于简单、提取精度不高、容易受手部姿态干扰等问题。本文在已有的基于指尖轮廓的K余弦算法的基础上进行了适当改进,对手部极限姿态下易产生误判点簇的情况进行了考虑。结合误判点具有的曲率低、纵坐标小的特征对其进行了剔除,然后利用无监督学习的K-means聚类算法对指尖点簇进行聚类,得到的簇中心作为真正采用的指尖点坐标,使得传统指尖提取算法更适合本文提出的第二种虚拟键盘的使用场景。另一方面,对于如何实现虚拟键盘系统,主要是如何实现按键位置的定位和击键事件的判定这两个模块给出了两种不同的实现思路。一种借助了键盘纸外设,利用键盘纸对键盘位置进行标定,坐落在键位内的指尖点通过击键判定算法控制键位击键;另一种则完全依靠用户手势控制,利用手部的HOG特征作为手势样本的特征,然后采用线性核的SVM分类器对用户的三种手势进行识别,用以控制虚拟键盘的行,用户的指尖点索引控制键位的列,击键判定工作则依靠指尖点纵坐标标定实现。此外,对每一种实现本文从不同角度进行了性能分析,并与已有方法进行了比较。本文通过基于单个RGB摄像头的虚拟键盘系统的研究对未来基于计算机视觉的人机交互系统进行了展望,希望能对未来完全虚拟现实化的人机交互系统研究有一定的参考价值和现实意义。
其他文献
随着医药行业的快速发展,我国药品研发、生产、流通、使用领域的安全问题越来越突出,2018年吉林发生的长春长生疫苗事件便是突出反映药品安全问题的重大事件。究其原因,既有药品行业自身的问题,也与国家监管不力密不可分。为充分保障广大民众的身体健康和生命安全,必须加大药品生产经营企业的社会责任,加强对药品行业的监管。药品安全监管是一项系统工程,需要全社会共同参与。相对其它监管而言,行政监管具有独特地位和作
本文研究了 m(m≥2)台并行机、带有公共交付期的最大化(权重)加工收益调度问题。该问题被认为是NP-hard,也就是说,除非P=NP,否则无法在多项式时间内找到一个精确算法来求解该问题。并行机是指系统内具有多台速度相同的处理机,每个工件只需在任意一台机器上加工即可;公共交付期是指所有工件具有相同的交付期;加工收益是指工件在交付期之前所完成的工作量。本文研究了该调度问题无权重和带权重模型,并分别提
中小微企业的数量不断增长,已成为推动我国经济发展的重要力量。然而融资难一直是困扰中小微企业发展的一大问题。随着2005年商业性小额贷款机构开始出现以来,小额信贷行业得到了飞快的发展,为我国金融市场注入了新的活力,为中小微企业第一时间提供资金支持,扩大了企业融资的渠道。然而,小额贷款企业作为新型的金融机构,并未获得法律层面明确的金融地位,不断发展的同时也面临着诸多的风险。所以,在当今经济一体化进程不
时域有限差分法(FDTD,Finite Difference Time Domain)是一种常用的电磁计算数值方法,它将目标空间划分成数量非常多的网格块,利用蛙跳式算法对空间内的电磁场进行交替迭代计算。FDTD计算方法的特殊性使得它拥有直观易懂、可并行性高、应用性广泛等特点,因此它被应用到计算电磁学的各个工程领域中,随着计算机硬件尤其是图形处理器(GPU,Graphics Processing U
受口译即时性的限制,口译员在进行英汉同声传译时需要尽快地输出。在此压力下,口译员容易受源语约束,从而影响译文质量。法国释意学派理论提出的“脱离源语语言外壳”的方法,
《汉语学习》(Studies in the Chinese Language),是由旧中国海关总税务司署汉文秘书科汉语学习股中外职员集体编写、海关造册处1931年出版,供海关外籍职员汉语学习与考试的统编系列教材。该书共三册,其中A、B册为海关工作商务公文,C册为海关工作生活口语交际。本文从二语学习的角度,以《汉语学习》为研究对象,对该书的成书背景、体例、选材、词汇、口语以及商务教学等方面进行分析,
深度学习给物体的识别和检测带去了重大进展,但它们的本质只是将视觉信息和有限的语言符号进行关联。本文将它们的目标向更广义的智能推进一步,通过视觉信息和任意语言描述的关联,使得智能体能像人类一样理解对物体的指示说明,从而能在视觉感知图像中,唯一定位出符合语言指令的目标区域,这个任务叫做视觉依据。本任务的输入为图像和文本,输出为目标物体的占据区域,属于视觉和语言的交叉领域。由于认知功能的复杂性,本文采用
命名数据网络(Named Data Networking,NDN)作为未来互联网的代表性架构,因其基于名字的路由以及网内缓存机制,使得IP网络中针对主机的分布式拒绝服务(Distributed Denial of Service,DDoS)攻击方式失效。然而NDN的请求-应答通信模式及有状态的转发却滋生了新的DDoS攻击方式——兴趣泛洪攻击(Interest Flooding Attack,IFA
随着互联网技术、信息技术和传感器技术的快速发展,图像、视频、图等数据日益增长,并广泛存在于计算机视觉和机器学习等领域。这些数据蕴含了丰富的信息,挖掘其有用信息,对视频检测、视频跟踪和行为识别等领域具有重要的理论和实用价值。随着深度学习等数据驱动技术的发展,卷积神经网络和图卷积网络等深度模型能够有效挖掘数据的辨别性特征,具有模型与数据匹配度高等优点,是数据分析的有效手段。作为计算机视觉的重要课题之一
随着互联网的高速发展,信息呈现爆炸性增长,出现了“信息过载”现象,这一现象加剧了用户信息选择的困难。在这一背景下,推荐模型应运而生。协同过滤推荐策略在个性化推荐服务