群智感知中语音识别系统的研究与实现

被引量 : 0次 | 上传用户:xwxseven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据背景下,大量用户拥有智能设备如手机和平板电脑,将推动群智感知技术的发展。物联网下的群智感知应用,结合语音识别的热门技术,协作完成社群参与式感知任务,将提供更完善的智能化服务。语音数据作为群智感知应用采集的数据之一,语音识别系统需要解决群智感知应用场景下带来的背景噪声、特定人口音、信道带来的发音变形问题和多样化话语主题带来的大词汇存储问题等。本文首先研究了连续汉语语音识别系统的架构,对比分析了各个模块的相关技术,接着分析了群智感知中的场景特性和话语主题特征,然后基于Sphinx语音识别引擎及其相关训练工具,实现了群智感知中的离线识别和在线识别互补的语音识别系统。本文的主要工作和创新点如下:(1)分析了群智感知中的场景特性,基于声学模型训练流程,采用了最大似然线性回归(MLLR)和最大后验概率(MAP)算法对不同场景下的声学模型进行调整。分析了话语主题的特征,基于Ngram语言模型训练流程,采用了线性插值算法对语言模型进行融合。(2)提出了基于C/S模式的离线识别和在线识别互补的语音识别系统的设计框架,并基于Sphinx引擎实现了群智感知中的语音识别系统。客户端实现了解码器在离线状态下的语音识别,服务器端提供了在线状态下的识别一致性检测、模型调整训练、监控和推荐的功能以及对外访问的接口。(3)设计并完成了多个实验,包括:不同场景的适应性实验、不同话语主题的识别实验、语音识别系统Android客户端的CPU和内存占用率的测试实验、词汇量对识别准确率和识别速率的影响的实验。实验证明,场景适应模块有效提高语音识别系统在不同场景下的语音识别正确率,话语主题识别模块验证了语音识别系统在不同话语主题下的识别有效性,能满足用户个性化的语音输入的要求。
其他文献
《经词衍释》为清代吴昌莹於同治十二年(1873年)著成,是《经传释词》的重要補充推衍之作。但它作为一部文言虚词专著,又有相对独立性,其本身也有一定的学术价值,但后代学者对
汉语中形如“张三死了父亲”或“张三被杀了父亲”的结构被称为“保留宾语结构”(ROC)。“保留宾语结构”的特点在于其中的动词作为非宾格动词或动词被动形式,在一般结构中不
隐喻是语言研究关注的热点话题之一,其研究成果可谓汗牛充栋。细数隐喻研究成果,其中最为广泛接受和熟知的理论学说有替代论、对比论、互动论、映射论、合成论等。通过深入研
本文以其它省区打造非遗文化品牌为例,结合新疆非遗保护实际情况,阐述了打造本地非遗文化品牌的具体措施和思路…….
本文利用实验语音学声学研究方法,分析研究了蒙古国阿嘎布里亚特土语的元音体系,建立了《阿嘎土语元音声学参数数据库》。并以此为原材料,分析研究了阿嘎土语元音。此项研究
在缺乏有效制约和监督的条件下,资源型农村换届选举成为人们争夺权力的舞台,而取得权力又成为控制集体资源的手段。这种权力异化现象主要由于:村民自治制度流于形式,村干部结
<正>《杜拉拉升职记》被誉为白领女性的职场宝典,讲述了都市白领杜拉拉从一个默默无闻的职员,经过自己的不懈努力,成长为一个企业高管的故事。根据小说改编的由徐静蕾执导的
目的评价半量替罗非班与肝素联合应用在急性心肌梗死(Acute myocardialinfarction,AMI)急诊冠脉介入治疗术中的疗效及安全性。方法1.病例的筛选及分组:本课题采用随机对照的方
我国正处于推行绿色施工的初期阶段。为了正确把握绿色施工,促进其发展,我们需要就绿色施工的内涵、作用、要求等基本问题进行深入的探讨。本文辨析了基于环境保护和可持续发
目的探讨高同型半胱氨酸血症(HHcy)对老年高血压患者血压变异性(BPV)及内皮素(ET)的影响。方法对2014年1~8月在我院就诊的116例老年高血压患者进行血浆Hcy、ET检测和动态血压