基于音素分类的短语音说话人识别

来源 :清华大学 | 被引量 : 0次 | 上传用户:lylh0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是指通过声音识别一个人的身份。通常来讲,这需要大量的语音数据。然而,现实生活中,语音数据的获取有着各种各样的困难。因此,使用提供的语音数据(或长或短)来有效地识别说话人身份变得至关重要。近来,不少研究者关注短语音说话人识别(Short Utterance Speaker Recognition,简称SUSR),并基于短语音提出了新的方法以提高说话人识别的性能。然而,大多数的方法将短语音设定为10秒左右,只有近期的研究将其设定在3秒左右。现有研究中最短的语音为2秒,其最小等错误率(Equal Error Rate,简称EER)为21.98%。基于现有短语音说话人识别的研究成果,本文提出使用不超过3秒的语音(汉语或英语)对说话人进行有效地识别,包括以下内容和创新点:1)提出文本无关的短语音说话人识别方法。在短语音中,语音变化恶化了说话人识别的性能。尽管文本相关的说话人识别有助于解决该问题,但是通过短短几秒的语音片段进行说话人识别还不完全可行。因此,我们提出在基本的音素识别中使用语音单元知识,这不仅使SUSR文本无关,且保留了潜在的语音信息。2)提出使用音素序列而不是连续语音进行短语音说话人识别的思路。由于音素是最小有意义的语音单元,使用音素序列可增加识别过程中的有用信息,且保留了说话人的特点。3)为了实现以上目标,我们使用了音素分类,即将相似的音速分为一类。这不仅解决了稀有分类中数据稀疏的问题,而且也使得不同类别的音素分布均匀。基于此,我们提出了音素类别的短语音说话人识别方法。4)为设计音素类别,我们学习了音素的语音和音韵属性,并基于发音特征设计了元音分类,以进一步实现基于音素分类的短语音说话人识别。5)为了测试音素组合的情况(元音和辅音),我们设计了音节分类,这是最常见的元音和辅音的组合。基于普通话的音节结构,我们设计了辅音分类,并通过组合元音类别和辅音类别设计了音节分类。为了验证本文的方法,我们基于3秒、2秒和1秒的音素类别序列分别对全局背景的元音分类模型、辅音分类模型和音节分类模型进行了实验。实验结果证明大量的说话人信息包含在诸如音素和音节等小语音单元中,音节分类是说话人识别最好的选择。元音分类同样也在短语音说话人识别中起到很好的效果,不过辅音分类却在短语音识别中不能达到好的效果。实验结果表明,与现有SUSR系统相比,在基于2秒的测试语音进行说话人识别时,本文方法(基于高斯混合模型和全局背景模型(Gaussian Mixture Model–Universal BackgroundModel))在带有韵律标注的语料库ASCCD的最小EER相对降低了54.50%,绝对降低了11.8%,在NIST SRE2008Short2训练集的最小EER相对值、绝对值分别降低了6.73%和1.48%。
其他文献
以丙三醇和氯化亚砜为原料合成1,2–环亚硫酸甘油酯,并以此为中间体与具有苯环的酰氯化合物反应得到相应的衍生物双(1,2–环亚硫酸甘油酯)对苯二甲酸酯、三(1,2–环亚硫酸甘
目的在脓毒症急性肺损伤(ALI)大鼠模型中观察鞭毛蛋白在其体内可能的致炎症肺损伤作用,及其抗血清可能的对抗炎症损伤的作用。方法复制脓毒症大鼠模型(致伤组),用鞭毛蛋白抗血清对
自古南人尚巫,所以,南方人观人,不看手相、面相,就得测字,稽属相。琼德,琼,繁为“璃”。《说文》:“亦玉也”。有儒校为“赤”,故谓赤玉。段氏以为“瑷”即玉名,《广雅》叙玉,璃为首,即可
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
运用LabVIEW开发系统,用普通的计算机声卡代替商用数据采集卡,设计了一个简单的虚拟示波器.该系统能够正确采集声卡设计频率范围内的信号,可以实现基本示波器的测量功能和频
管道泄漏事故有很多共性,其中违规施工、管线规划不合理、管线安全巡护制度不健全、缺乏事故应急救援是主要原因。从油气安全法律体系的角度看,《石油天然气管道保护法》、《
完善的案例指导制度能够统一法律适用标准,缓解"同案不同判"的尴尬,符合党的十八届四中全会提出的"保证公正司法,提升司法公信力"的司法体制改革目标。2015年6月2日最高人民
摘要:本文以作者所在学校商务英语专业为例,分析了中高职课程衔接的现状,指出中高职衔接存在相互沟通与交流的机会与平台不多,导致共同开发的课程教学资源没有有效地利用,中高职在人才培养及课程教学中出现沟通不畅、信息互通欠佳的问题。提出了建设课程教学互动平台促进资源利用,加强师资交流,改革教学模式的建议,并简要介绍了平台的建设要点及技术实现。  关键词:商务英语;中高职衔接;课程教学互动  中图分类号:G
文章回顾了高职学生课业任务价值内涵研究已有文献,结合高职院校的办学定位赋予其全新内容,构建并梳理价值体系及其逻辑关系,在此基础之上,提出“发挥三个作用、强化三个主题
肉毒中毒是一种以急性、松弛性麻痹为主症的食源性或感染性疾病,虽然并不常见,但却是一种致命的中毒性疾病。很多临床医生不熟悉甚至不了解肉毒中毒、易发生误诊而延误治疗,