论文部分内容阅读
文本数据是普遍存在的一种数据类型,如何分析文本并提炼有用的信息具有重要的意义。主题模型是现今最有效的文本分析算法族之一,本文基于主题模型,研究两个亟待解决的文本分析问题:多标签文本分类问题和流文本数据建模问题。多标签文本分类:本文针对现存有监督主题模型存在模型可扩展性较差,没有考虑标签相关性,标签出现频率和词项的标签频率等问题,提出一些改进算法,包括SL-LDA模型,LSTM算法,FLDA模型,DFLDA模型和CPTM算法。实验结果表明,相比常用的经典分类算法,所提出算法的多标签分类性能更优;特别地,所提出算法对于偏斜文本集的分类性能有所提升。流文本数据建模:本文针对现存主题模型在线学习算法存在随机梯度误差较大,需要手动设定学习速率和主题采样的时间复杂度较高等问题,提出一些改进算法,包括MASVI算法,自适应学习速率算法和SHVG算法。此外,提出了在线版本的期望传播算法。实验结果表明,所提出算法的文本建模性能更优,且在多数情况下收敛速度更快。