面向移动终端的语音助手AudioPhone的设计与开发

来源 :浙江大学 | 被引量 : 0次 | 上传用户:weigangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术是机器学习领域的一个重要研究方向,在现实生活中有着广阔的应用前景。随着移动互联时代的到来,移动终端成为主要的人机交互平台,语音识别技术在移动终端上的应用越来越受到人们的关注。   本文主要开发了面向移动终端的语音助手软件AudioPhone,该软件在卡内基梅陇大学的连续语音识别引擎POCKETSPHINX基础上进行了算法改进,实现了关键词识别功能,解决了运算速度过慢的问题,此外本文针对使用过程中遇到的口音问题进行了研究。主要工作有以下几个方面:   第一、语音助手软件AudioPhone的设计与开发。关键词识别算法性能在PC机上经过验证后,在手机操作系统Android平台上进行了移植,并实现了语音导航、通话记录分析、语音拨号功能。   第二、关键词识别算法的实现与改进。针对POCKETSPHINX的连续语音识别算法无法拒绝集外词汇(OOV)问题,提出了在搜索网络中动态加入垃圾词汇路径的方法,并通过实验探索了垃圾词汇选择策略,在POCKETSPHINX基础上实现了   关键词识别功能;针对原始搜索算法时间复杂度和空间复杂度过高的问题,以词格理论为基础改进了搜索算法,对原来的三阶段搜索进行裁剪,只保留一阶段搜索,并利用一阶段搜索产生的词格信息计算后验概率得分和声学模型得分,大幅度提高了运算速度。并在PC机上开发一套性能测试程序,在录制的40人语料库上进行实验,召回率达到了92.10%,误警率为7.3,系统平均运行速度相对于POCKETSPHINX的搜索算法提高了两个数量级。   第三、口音问题的分析和解决。针对软件使用过程中带口音的语音识别率低的问题,引入了口音自适应算法,通过统计说话人口音发音规律,建立音节混淆矩阵,生成多发音字典,在识别过程中调整搜索网络,提高了识别率。在录制的短语口音语料库上进行实验,相对于标准发音字典,多发音字典使系统准确率从75%提升到90%。  
其他文献
曲面重构是逆向工程中的关键和难点问题,它是将点云测量设备采集得到的随机分布、无规则的点云数据重构得到连续的曲面,广泛应用于工业、商业、娱乐、医学等领域。目前曲面重
高层体系结构(HLA)是分布式交互仿真发展的前沿,代表着仿真技术的发展方向。它强调仿真系统的互操作性和可扩展性,并且能够支持不同类型的仿真成员之间互联。为了满足信息对抗
这些年来,网络的迅速发展给人们的生活带来极大的便利的同时,也带来了许多安全性问题,木马、蠕虫等问题层出不穷,严重威胁着人们的财产安全。其中网络协议作为网络通信的主体成为
本课题针对网构软件系统独有的基本特征,研究网构软件在复杂开放网络环境下的可信性问题。结合其演化性的特点,根据模糊理论、信息熵理论、演化博弈理论、生态进化理论以及经典
多跳无线网络技术的发展满足了人们随时随地进行组网的需求,为人们提供了更加高效、便捷、灵活多样的网络接入方式。其自组织、自配置、自愈性等诸多特点使其能够有着较快的部
无线传感器网络(WSNs,WirelessSensorNetworks)是由随机分布在陆地、水域或者其他地区的传感器节点自组织形成的无线网络。节点受能量、体积及价格的影响,其计算能力、存储能量
近年来,由于网络应用系统的普及,软件系统的质量特别是对隐私性的要求越来越受到人们的重视,软件工程领域的一个主要挑战就是使用户信任日常生活中所使用的软件系统,可信的软件系
随着信息技术的快速发展,及企业信息化建设的需求,IT服务管理(ITSM)在企业运营管理中所起的作用越来越重要。信息技术基础架构库(ITIL),作为IT服务管理最佳实践指南,提倡以流程为
随着虚拟现实技术引起越来越多的关注,以及计算机图形学与计算机软硬件快速的发展,2016年被定义为VR/AR元年,广大虚拟现实技术的学者和计算机软硬件厂商都投入到了虚拟现实技
现代技术特别是高技术条件下的局部战争中,如何能够迅速、准确地获取瞬息万变的战场信息,已经成为决定战场胜负的重要因素。随着计算机和网络技术的迅速发展,作战指挥方式已从传