语音关键词识别训练样本扩展、筛选及系统实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:heyun102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融企业呼叫中心记录的客服与客户对话语音是一个非常宝贵的数据资源,准确提取语音数据中的关键词可以有效获取客户意见、潜在需求、客服质量等有助于企业发展的重要信息。传统的人工质检方法存在抽检率低、抽检时间成本高等问题。本文以呼叫中心客服与客户对话语音为分析对象,探讨金融领域语音关键词识别问题,提出有效解决方案。本文主要工作和贡献如下:(1)针对个别关键词训练样本不足及训练样本中说话人性别不均衡问题,提出基于语音转换的训练样本扩展方法。该方法主要以改变语音频谱来扩展训练样本的说话人多样性,从而提高系统识别鲁棒性。基于AISHELL数据集中10个关键词的实验结果表明:在训练样本不足的情况下,使用本文方法后提升了3.44%-5.95%的检出率;在说话人性别信息不均衡的情况下,使用本文方法后提升了0.81%-3.08%的检出率。(2)在采用(1)的扩展方法得到大量训练样本的基础上,本文提出了一种基于改进轮廓系数评价思想的训练样本筛选方法,进一步提高分类器的性能。该方法采用通用背景模型-高斯混合模型(Universal Background Model–Gaussian Mixture Model,UBM-GMM)对原始语音进行建模,借鉴改进轮廓系数的评价思想对扩展样本进行筛选。基于AISHELL数据集中10个关键词的实验结果表明:与随机方法得到的训练样本相比,基于本文方法筛选得到的训练样本,其模型的关键词检出率提高了0.26%-2.51%。(3)由于系统需要极高的准确率,本文采用了基于RNN-CTC(Recurrent Neural Network–Connectionist Temporal Classification)的关键词识别方法。该方法不需要对样本进行标注对齐,有利于工程实现,且RNN是时序数据的首选网络,它可以达到很高的精度,有利于本文识别准确率的提升。采用AISHELL数据集和客家话数据集进行实验评估,结果表明:与深度神经网络(Deep Neural Networks,DNN)方法相比,本文方法的识别准确率提升了11.70%-12.72%。综上所述,本文提出了基于语音转换的训练样本扩展方法和训练样本的筛选方法,并设计了应用于金融客服质检系统的RNN-CTC关键词识别系统。实验分析了本文所提出方法与所设计系统的性能表现,并验证了它们的有效性。
其他文献
幼儿求助行为体现幼儿有效互动的程度,求助行为不仅满足幼儿的人际交往,展现幼儿同周围环境交流的能力,使幼儿在交往过程中习得自身所需要的知识和技能。区域活动作为幼儿园课程实施最主要的教育形式之一,能够给予幼儿主动学习、自由探索的机会,满足幼儿自身的学习需求。《指南》表示幼儿社会性在日常生活中和游戏中发展起来,引导幼儿在各种活动中愿意与人交往,积极主动的发展社会性交往能力。幼儿园中的区域活动作为幼儿获得
学位
当前,探究中学生核心素养的发展是研究的热点,在实际的教学中如何有效地提高学生核心素养是一线教师亟需解决的问题。由于单元教学有益于学生思维、核心素养的养成,是一种整体思维引领的教学模式,而一元一次方程对奠定学生的数学基础和数学思想有重要价值。故本文以发展学生数学核心素养为视角展开“一元一次方程”的单元教学设计,以探索数学核心素养发展的有利方式。首先,利用问卷星回收了84份教师的调查问卷,以了解初中数
学位
中华优秀传统文化是中华民族几千年来通过艰苦奋斗积淀下来的伟大精神财富,是中华民族赖以生存的文化根脉,也是中华文明经久不息的活力源泉,更是实现中华民族伟大复兴的坚强基石。党的十八大以来,以习近平为总书记的党中央高度重视中华优秀传统文化教育。统编本高中语文必修教材重视课程的育人功能,突出了融入中华优秀传统文化的重要作用。本文立足于统编本高中语文必修教材,以及高中生的学情和教师的教情,结合自身和一线教师
学位
通过梳理幼儿园开展民间剪纸教学的相关文献,笔者发现幼儿园在开展民间剪纸教学时缺乏系统的理论指导和实践教学活动作为有效的参考,从而导致幼儿园开展民间剪纸教学活动的效率较低,民间剪纸幼教价值无法得到充分发挥的问题。针对问题,本研究以幼儿园民间剪纸教学活动设计与实施为题,探索如何在幼儿园有效的开展民间剪纸教学,并形成系统的理论框架和实践教学案例,以期为其他幼儿园开展民间剪纸相关活动提供借鉴。本文主要利用
学位
阅读过程是学生使用掌握的词汇去理解文本的过程,同时又是通过阅读去积累字词的过程。正确且深入地分析、理解课文中的重要字词,是学生们能够恰当理解文本,感知课文所传达的丰富情感、文化内涵的重要前提之一;学生对词汇的理解和将其与课文内容结合的具体分析过程,能够有效的提高学生对词汇的运用能力和运用词汇表达交流的水平。字理析词法就是根据汉字造字的理据规律,结合《六书》中的四种典型造字法:象形法、形声法、会意法
学位
随着对无线频谱资源需求的日益增长,各式各样的未授权的无线通信装置和技术已经开始应用于电视空白频段(Television White Space,TVWS)。基于不同通信协议和技术的异构认知网
生命周期的缩短以及生产技术的创新,加快了产品的更新换代速度,导致了废旧产品的大量增加,而为了应对因废旧产品废弃所造成的环境污染及生态破坏等不利影响问题,越来越多的企
爱国主义不仅是民族自尊心和民族自信心的核心构成,而且是国家和民族独立发展的重要精神动力。全球化背景下多元文化的交流、融合与碰撞,突显着爱国主义教育的时代价值。在充分发挥学校在爱国主义教育中的引领价值的同时,结合时代发展特点,调动和激发家庭等教育力量,构建家校协同的爱国主义教育机制,切实提升爱国主义教育的实效性,在服务学生全面发展的同时,探索新时期爱国主义教育的新路径,就成为新时期爱国主义教育的现实
学位
学位
生活教育理论是陶行知整个教育思想的核心,而“教学做合一”是生活教育之方法之理论。因此,“教学做合一”是生活法,也是教育法。生活自理教育的内容来源于生活,生活自理教育的目的是帮助幼儿解决基本的生活自理问题,提高幼儿自理能力。“教学做合一”理论和生活自理教育的内容、目的都非常契合,并且为开展生活自理教育提供了一个很好的方法和理论基础。因此,本研究便是以“教学做合一”为理论指导开展促进小班幼儿生活自理能
学位