论文部分内容阅读
本文主要研究了语音主题提取的全部过程:主要由语音数据的预处理、文本表示、特征提取、参数估计、模型训练和主题分类提取组成,以及通过Gibbs-LDA++和libsvm的环境平台实现对模型的仿真。语音数据的预处理主要包括对语音的转换、分词、去除停用词和词频统计。利用语音转换得到文本数据,再利用中科院计算所的汉语词法分析系统ICTCLAS对文本数据进行分词和去除停用词,以减少无用词的干扰,降低数据量;对进行了分词和去除停用词的数据再做词频统计,方便后面的处理,以及给词赋予权重。文本表示和特征的提取是计算机能够有效处理数据与提取性能好坏有着直接的联系。文本的表示我们利用的是向量空间模型,它是自然语言处理常用的模型,有着可靠的理论支持。特征提取是通过改进的x2统计量的方法来选取的,它主要是利用了特征项与类别间的关系来决定,避免了重要信息的丢失。在特征提取完后,我们需要在这些特征集上进行参数估计和模型的训练。参数估计是为了给建立LDA模型提供必要的三个参数φ、β和T。φ和β在LDA中不能直接的获得,只能通过一些近似算法得到,在这里我们采用了MCMC中的Gibbs采样来获取。T是主题数的大小值,需要我们人为设定,但是取多大的值才是最优的呢。我们通过优化DBSCAN算法,利用样本密度来判断主题与主题之间的相互关系来选取最优主题数,实现了性能的提高,减少了迭代次数。参数获取完后,就需要进行LDA模型的训练,让模型生成一个隐藏主题-文本矩阵,为后面的分类提取算法支持向量机提供支持,构造出分类器。最后我们通过在Gibbs-LDA++和libsvm的环境平台上进行中英文语音数据的提取实验,通过对比实验结果,根据性能的评测方法,我们能明显的验证出基于主题模型对语音主题的提取的优越性和有效性。