论文部分内容阅读
随着科技和网络的快速发展,如今我们已经进入数据信息的时代,每天都会有大量的数据在各种社交平台或者新闻网站上产生,其中一般都是文本数据。如何才能从这些浩如烟海的文本数据中获取自己想要的信息,已成为人们日益关注的问题,也刺激了文本自动分类技术的产生和迅速发展,近些年来文本分类已经成为自然语言处理领域研究的热点和难点之一。许多国内外学者都在文本分类领域做了不少的研究工作和一定的贡献,在上世纪五十年代末,H.P.Lunhn等人对文本分类的工作做出了开创性的贡献,它们最早提出了词频统计的思想,Maron在1960年发表了第一篇关于文本自动分类的文章,推动了文本分类的发展,之后更多的学者加入了这一领域的研究。本文首先了解了论文研究的背景知识和其意义,然后分析了文本分类的相关理论知识以及文本分类的一些技术和方法,并指出了它们的缺点和不足之处,在此基础上,本文做出了以下几点贡献:1.提出了基于LDA的弱监督文本分类算法VB-LDA(Latent Dirichlet Allocation with Vector and Bigram)。该算法首先对LDA概率生成模型进行了改进,原LDA模型没有考虑文本中的词语顺序问题,是一个纯粹的词袋模型,并且词语之间两两独立,互不相关。对LDA改进后的文档生成模型首先保持了文档中的词序,并在文档的生成过程中加入了二元语法,即在两个相邻词语之间引入一个状态随机变量x,用来表示相邻的两个词语是否形成二元语法;VB-LDA算法还引入了词向量,在原LDA模型中,得到每个主题的高频词后,一般都是由领域专家根据它们来确定主题的类别,但本文不再由领域专家决定。因此本文引入了词向量化工具word2vec。2.将VB-LDA算法应用到文本分类中。本文利用算法VB-LDA对文档进行分类的主要思路如下:首先用LDA改进模型对文档集生成主题模型,以获取主题的高频词和类别的代表词,然后利用词向量化工具将它们都转化成相应的词向量,最后用距离度量来计算出每篇文档中概率最大的主题所对应的类别,即为该文档的类别。最后在公共数据集:20Newsgroup、WebKB、SRAA上的实验结果表明,本文提出的基于LDA的弱监督文本分类算法VB-LDA在不需要人工标注的训练数据时,也能获得与现有SVM算法很接近的分类能力,同时,该算法在面对其他不以LDA为基础的分类学习算法时,也能取得较好的分类效果。