基于词片网格的语音文档主题分类

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zgl_0251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音文档主题分类是指根据语音文档的属性或内容,将大量的文档映射到多个预先定义好的主题中,语音分类是语音识别的一个重要研究方向,具有广泛的应用前景,得到人们越来越多的关注。伴随着多媒体时代的到来,汉语言文档分类技术的研究变得必不可少。针对这一现状,本文从构建汉语音文档分类系统出发,利用HTK平台将语音文档识别成one-best单候选和lattice多候选两种结构,并结合传统文本分类思想,将4个类别8700多个语音片段合并为748个语音文档的训练测试集,实现了语音文档的主题分类。该分类系统以单候选one-best分类系统为基线系统,与多候选lattice分类系统相对比。在基线系统中,以传统的文本分类系统为框架。而在多候选分类系统中,用混淆网络对lattice进行结构优化,并且在混淆网络的结构上基于词片进行词汇的提取。该方法采用混淆网络为分类的中间结构,突出了多候选之间的竞争关系,避免了传统方法因寻找识别结果中的最优路径而带来的误差,以保证分类的正确。并且后验概率的引入能够有效地减小了识别误差对分类效果的影响。分类器设计部分采用当前经典的奇异值分解方法,构建了类中心分类器。实验表明,与单侯选分类系统相比,引入混淆网络的多候选分类系统能提供更多的竞争候选,在特征项向量稀疏的情况下,具有更好的分类性能。
其他文献
随着4G/LTE(4 Generation/Long Term Evolution)网络的迅速发展与部署以及无线移动网络性能的进一步提升,互联网中的用户数和应用都出现爆炸性增长。在网络带宽提高的同时数
随着网络音频文件的广泛传播,以及信息安全领域面临的严峻形势,音频隐写技术已经受到越来越多的关注。本文在分析总结音频隐写技术当前的研究现状与存在的问题后,主要围绕在
迎合“大数据”、“智能机器”双时代的来临,“智慧政府”、“智慧城市”已经在国内被提上日程,并在部分先进地区已经开始应用,“智慧公安”也开始初见倪端,并在部分地区被提
HSUPA(高速上行分组接入技术)是继HSDPA(高速下行分组接入技术)之后,WCDMA系统又一个新的发展历程,该技术采用了HARQ重传机制,更短的TTI等关键技术,使得上行速率最高达到5.76
图像超分辨率重建是一种由低分辨率(LR)图像获得高分辨率(HR)图像的技术,其目的是恢复图像在降质过程中损失的高频信息和细节信息。其主要方法包括基于插值、基于重建、基于
近年来,政府稽察部门加大了对政府投资建设项目的监管力度,稽察的方式方法不断创新,稽察手段的信息化水平日益提升.本文对建立政府投资项目监管系统应用的重要性、主要内容和
蓝牙通信技术,现在已经是非常成熟的短距离数据传输技术.在蓝牙系统中,为了支持不同应用,需要使用多个协议,这些协议按层次组合在一起,构成了蓝牙协议栈.蓝牙协议栈是蓝牙技
智能天线技术是第三代移动通信系统的关键技术之一,近年来受到了广泛关注,成为国内外的研究热点。随着近年来移动用户数量的剧增和新型移动业务类型(语音、数据、图像等)的出现
说话人识别是根据说话人的发音特性自动识别说话人的过程,它不注重包含在语音信号中的语义内容信息,而是着眼于包含在语音信号中的个人发音特征,从语音中提取说话人的这些个人发
轨迹测量对于运动物体控制具有重要意义。随着现代电子技术、检测技术和计算机控制技术的发展,人们对水下物体轨迹的测量精度以及测量速度的要求越来越高。轨迹测量即利用加