论文部分内容阅读
随着3G技术的不断发展,基于IMS(IP Multimedia Subsystem,多媒体子系统)的Push—to—X技术受到越来越多的关注。Push—to—Voice作为Push—to—X的一个重要分支,主要实现语音查询的功能,该应用方便快捷,节省系统资源,是3G时代的重要应用之一。
本文在局域网环境下,搭建模拟系统,实现了一个比较简单的Push—to—Voice系统。客户端和服务器端通过SIP(Session Initiation Protocol,会话初始化协议)协议建立起会话,通过RTP(Real—time Transport Protocol,实时传输协议)协议传输音频流,客户端对待查询语音文件进行打包,形成音频流发给服务器端,服务器端收到后,对该音频数据拆包重组成AMR(Adaptive Multi—Rate,自适应多码率)语音文件,然后通过语音识别引擎将声音文件转换为文本信息,构成SQL 语句搜索后台数据库,查询结果返回给语音识别引擎,将文本转换为语音文件,再打包返回给客户端,客户端经过拆包重组把收到的RTP包合并为语音文件,用户就可以听到自己要查询信息的结果。
语音文件的打包拆包重组方法是根据从辽宁移动截获的RTP语音包分析得来的。经过测试,本系统实现了简单的Push-to-Voice功能,对6字以下的语音查询准确率达到百分之九十左右。对6字以上的语音查询准确率下降,基本达到了预期的效果。
由于时间仓促,本系统目前只实现了Push-to-Voice系统的一个雏形,还需要不断的改进和完善才能被用于商用。