论文部分内容阅读
现实生活中,哭声是婴儿与外界交流主要途径,婴儿通过哭声向外界传达需求,婴儿照料者则需根据婴儿的哭声来满足其需求。现阶段对婴儿哭声的研究大多集中在婴儿哭声的分类,检测婴儿哭的原因,比如,饥饿、瞌睡、不舒服等。但上述研究成果的应用需要建立在能够准确检测婴儿哭声的基础上,而国内外相关研究很少,因此,本文研究了能适用于不同场景的婴儿哭声实时检测系统的核心组算法组成:婴儿哭声端点检测、语音增强和婴儿哭声检测算法,并将婴儿哭声端点检测和语音增强算法应用到婴儿哭声实时检测系统中。具体而言,本文的主要工作如下:第一,本文提出了一种基于模糊C均值(FCM,Fuzzy C-means)的婴儿哭声端点检测算法,该算法充分利用了婴儿哭声的特点,创新性的把FCM聚类算法应用到婴儿哭声端点检测这一场景中,解决了聚类算法因为需要预先设置聚类中心而不适用于语音端点检测这一问题。算法的仿真结果表明,本文提出的基于FCM的婴儿哭声端点检测算法在婴儿哭声检测这一场景中的准确度比2018年Xunbo提出的算法准确度高。第二,本文搭建了一个婴儿哭声语音数据库。现阶段婴儿哭声相关研究所使用的数据库大多是非公开的,为了满足课题研究需要,本文使用互联网手动采集的方式,从互联网采集婴儿哭声数据样本。并将经过预处理去除了不合格干扰样本后的数据集和来自Noise92噪声库的噪声合成具有不同信噪比的婴儿哭声样本。第三,本文改进了基于自相关的语音增强算法,仿真结果表明,改进后的明显较少了残留的音乐噪声。另外,本文介绍了四种常用的语音增强算法,并给出对应的仿真结果和算法优缺点分析。第四,本文提出了一种基于支持向量机(SVM,Support Vector Machine)的婴儿哭声检测算法,相比于现有基于深度学习的婴儿哭声检测算法,本文提出的算法更适用于中小数据集和对实时性要求较高的场景。本文针对婴儿哭声的特点,对输入音频信号提取了基因周期、频谱滚降点、子带频带方差、梅尔频率倒谱频谱系数、子带能量方差等特征。仿真结果表明,算法的准确度达到了94%,最后,本文搭建了一个婴儿哭声实时检测系统。本文将婴儿哭声端点检测算法、语音增强算法、婴儿哭声检测算法应用到了婴儿哭声实时检测系统中。具体而言,本文实现了一个婴儿哭声实时检测系统,该系统支持多婴儿,以及任意场景的实时哭声检测,并且配有相应的浏览器交互页面,供用户实时查看婴儿状态。