论文部分内容阅读
从键盘、鼠标等传统交互方式到多点触控、语音、手势、姿势、眼球跟踪以及脑-机交互等自然交互方式,人机交互技术领域取得了巨大的进展。然而,这些交互方式不一定适用于所有情况。例如,当双手被占用时无法进行鼠标或触摸交互,在嘈杂或不方便使用语音的环境中无法进行语音交互,或肢体障碍的人无法进行语音或眼球跟踪交互等。由于呼吸可以被有意识地控制,呼吸互动的便捷性和可控性使得呼吸是一种可控的简单操作,可用于一些特定的交互情境,在一定程度上可以弥补上述常见交互模式的缺点。因此,呼吸可以被看作是一种辅助于触摸和语音等交互的直接可控的自然交互方式。迄今为止,有些研究将呼吸或者吹气作为一种直接输入的交互控制方式。但是这些研究工作或是需要依赖于特殊的定制设备,或是只能在少数特定的场景中使用,且很少考虑噪音干扰以及个体、设备差异性等问题,因此基于呼吸或者吹气的这种交互方式目前还缺少通用性。为此,本文研究基于吹气的简单、便捷、且直接可控的自然交互方法。该方法仅使用普通的耳机麦克风获得吹气动作的声音波形,不需要昂贵的呼吸信号获取设备,可以便捷地携带、随时随地方便地使用。本文的主要贡献在于将复杂准确的识别算法和简单耳机设备结合,实现方便且精确的吹气交互方法。首先,本文提出一种基于粒子群优化支持向量机(PSO-SVM)模型的吹气识别方法,可对吹气数据进行预处理、特征提取以及识别分类。实验表明其不仅具有简单、便捷、可控的特点,且比已有方法可以更有效地处理用户说话的干扰,提升了识别的准确率。更进一步,本文还研究提出了一种基于暹罗网络(Siamese Network)的自适应吹气交互方法。该吹气交互方法使用暹罗网络模型实现了“自适应”:一是适应噪音干扰,包括环境噪音、使用者自身说话声音等干扰;二是适应不同的用户和设备,即不同的人使用或者是在不同设备上使用。与已有方法相比,该交互方式可以更加准确地识别出吹气类型,可更好地适应环境噪音和不同的用户、设备。本文还研发了吹气交互方法的几个应用程序,进行算法测试等。归纳的,本文贡献概括如下:1.提出了一种基于PSO-SVM模型的吹气交互方法。该方法使用普通的耳机麦克风将吹气动作转化为声音波形,对波形数据进行预处理和特征提取,进而使用PSO-SVM模型对吹气的声波进行识别,获得不同的吹气类型,为相关应用提供简单的交互操作。该方法仅使用生活中常见的普通耳机,不需要昂贵的呼吸信号获取设备,可以便捷地携带、随时随地方便地使用。实验测试表明,本方法不仅简单易用、有效、可控,且比已有方法可以更有效地处理用户说话的干扰,提升了识别的准确率。但当该方法在不同设备上使用时,会出现因为差异性导致识别准确率下降的问题。2.针对上述问题,本文还提出了一种基于暹罗网络的自适应吹气交互方法。为了使吹气交互方法具有适应噪音环境、个体和设备差异的能力,本文采用改进的暹罗网络,在定义语义对齐损失函数时增加了一个分离损失函数,由二者构成暹罗网络的特征度量对比损失函数,来更好地处理不同领域但属于同一类别的相近问题、以及不同领域且不同类别的相离问题,并在源域处理流的全连接层设置分类损失函数,提高分类精度。实验表明,与本文提出的基于PSO-SVM的方法和文献[2]的方法相比,本方法可以更好地适应环境噪音和不同的用户、设备,且交互方法的种类也有所增加。3.为了验证本文提出的吹气交互方法,开发了基于HTC VIVE实现的虚拟游戏“海底探宝”、PC端视频播放、手机移动端高德地图等系统用于测试实验,并从算法性能和用户可用性等方面进行测试。