论文部分内容阅读
近年来,我国生猪养殖业中的小规模和散养户逐步退出市场,养殖方式逐渐变得更加标准化、规模化。在生猪养殖产业不断发展的同时,对生猪舍内疾病的预防与控制变得尤为重要。呼吸道疾病是生猪养殖产业的主要威胁之一,其高死亡率、强传染性等特点严重影响生猪的健康以及猪场的经济效益。建立呼吸道疾病预警系统可以及时发现猪舍内的异常情况,在呼吸道疾病的早期给予养殖户提醒,从而及时进行有效处理,降低经济损失。咳嗽是生猪呼吸道疾病早期的主要临床表现症状之一,利用音频技术对舍内生猪咳嗽声音进行识别可以为呼吸道疾病预警系统提供有效的数据支持。本论文主要研究了基于音频技术的生猪咳嗽声音识别方法,其中包括建立生猪叫声音频数据库、生猪叫声声学特征提取与分析和基于卷积神经网络的生猪咳嗽声音识别方法,具体研究工作如下:(1)建立生猪叫声音频数据库。采集猪舍内的实时音频数据,对采集的数据进行减噪处理以降低噪声的干扰,通过专家视听的方法对处理后的声音数据进行标注,并利用双门限端点检测法定位声音样本的起始位置,由此构建了包含2744个生猪咳嗽声音样本和1807个舍内非生猪咳嗽声样本的生猪叫声音频数据库,该数据库为后续研究提供数据支撑。(2)进行生猪叫声信号声学特征提取与分析。提取了生猪叫声音频数据库中各个音频数据的功率谱密度(Power spectral density,PSD)、梅尔频率倒谱系数及其一阶差分系数(MFCC+?MFCC)和语谱图特征,并对其进行分析。实验表明生猪咳嗽声与大部分非咳嗽声的PSD特征参数在一定的频率范围内差异明显;然而,与非咳嗽声音相比,MFCC+?MFCC的静态部分(即MFCC部分)差异明显,而动态部分(即?MFCC部分)差异较小。此外,咳嗽声与非咳嗽声中的水流声和猪尖叫声的语谱图图像差异最为明显。(3)融合MFCC+?MFCC特征的生猪咳嗽声音识别方法。利用卷积神经网络对MFCC+?MFCC组合特征中的相邻帧信息进行融合以加强其动态特性,从而提高生猪咳嗽声音的识别准确率。将融合后生成的新特征记为MFCC-CNN,采用10折交叉验证进行仿真,结合Softmax和支持向量机(Support vector machines,SVM)分类器对64维的MFCC-CNN进行建模,并定义准确率、咳嗽声准确率、精度、非咳嗽声准确率以及F1分数共5个性能评价指标来量化模型性能。结果表明,采用MFCC-CNN作为识别舍内生猪咳嗽声音的分类特征时能够取得满意的结果。采用Softmax和SVM分类器进行建模时,融合MFCC+?MFCC组合特征中相邻55帧和45帧信息生成的64维MFCC-CNN分别作为特征参数能够达到最佳识别效果,咳嗽声准确率分别能达到97.81%和97.71%,模型的F1分数分别能达到97.25%和97.40%。相比较于采用MFCC+?MFCC作为特征参数进行建模而言,在最佳识别效果下,咳嗽声准确率和模型的F1分数分别提高了3.85%和5.35%。(4)基于语谱图的生猪咳嗽声音识别方法。采用生猪叫声的语谱图特征作为分类特征,使对生猪咳嗽声音的识别任务转换为对其语谱图的图像分类任务,从而利用卷积神经网络在图像识别领域的优势。引入图像识别领域的Alexnet卷积神经网络,将其Softmax层调整为2通道,并重新训练所有全连接层参数以用作不同音频语谱图的分类器。实验以生猪咳嗽声音和非咳嗽声音为单元进行建模,采用10折交叉验证的方法进行仿真,实验结果表明该方法能够取得较满意的结果。其中,咳嗽声准确率和非咳嗽声准确率分别为96.74%和91.75%,准确率为94.76%,精度为94.67%,模型的F1分数达到95.68%。与基于序列特征(具体以PSD为例)建立的生猪咳嗽声识别模型相比,在最佳识别效果下,其咳嗽声准确率和模型的F1分数分别提高了2.04%和2.28%。综上所述,本论文采用音频技术,提出了构建生猪咳嗽声音识别模型的两种不同方法,其仿真实验能够取得满意的效果,咳嗽声识别准确率和F1分数均能达到95%以上,为生猪呼吸道疾病的自动化、精准化、智能化识别提供了新思路和新方法。