论文部分内容阅读
年龄估计技术是以计算机作为辅助工具,根据说话人语音,利用已设计好的年龄估计系统自动判别说话人所属年龄段。该技术在信息检索、人机通信、刑事侦查等领域都有重要应用价值和广泛的应用前景。目前,在研究基于语音的年龄估计时主要采用单一语音特征或者单一分类器构成的系统来处理多个年龄段分类任务;虽然相关学者在特征提取和分类算法方面做了大量卓有成效的工作,但是对于语音年龄估计技术特征不稳定、单层系统分类准确率低等问题还没有较好的解决方案,同时也缺乏标准评价平台即公认的年龄语音数据库。针对这些问题,论文从建立年龄语音数据库、提取特征到分类识别进行了系统研究,取得以下成果。1、建立年龄语音数据库以国际上语音语料库设计标准为参照,考虑话者年龄、性别分布选择。最终建立起一个包含三个年龄段、男女分布较均匀的年龄语音数据库。另外,对每段语音标注说话人的相关信息,如年龄、性别、录制时间。此工作有利于扩展语音数据库功能,例如年龄标注可用于年龄估计,性别标注可使数据库用于性别分类。2、建立融合性别预分类的年龄估计系统目前年龄估计系统大多使用单一特征、单一分类器进行分类,分类准确率普遍较低。论文先进行性别预分类,根据分层分类思想优先判断是否为儿童;然后在特定性别下进行青壮年、老年的估计。结合每个子任务的特点选用多种特征和分类器,以提高系统最终的分类效果。3、提出基于改进Citation-kNN算法的成人性别分类方法Citation-kNN算法多用于图像处理,对其改进并首先引入到成人性别分类研究中。提出了基于GMM的语音多示例包生成方法;对Citation-kNN算法的距离测度改进进行模式分类,简化了系统训练方法。实验结果表明,改进后的Citation-kNN算法应用到说话人性别分类是可行的,系统的平均分类准确率与传统的算法相比略有提高。4、提出基于频带加权MFCC的年龄子类别估计系统语音信号经离散傅里叶变换后得到的各个频带信息对年龄估计任务有不同的贡献度,以频带能量为参数,依据F-ratio准则设计区分度函数来计算各个频带的整体贡献度。计算MFCC特征时,在Mel滤波之后对各个滤波器输出的频带能量按贡献度不同进行加权,以强化或削弱相应频带。基于性别信息的年龄子类别估计实验结果表明,改进后的MFCC特征比传统MFCC更能体现语音年龄信息。