基于LDA的文本分类研究及其应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:iceberg4ever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技和网络的快速发展,如今我们已经进入数据信息的时代,每天都会有大量的数据在各种社交平台或者新闻网站上产生,其中一般都是文本数据。如何才能从这些浩如烟海的文本数据中获取自己想要的信息,已成为人们日益关注的问题,也刺激了文本自动分类技术的产生和迅速发展,近些年来文本分类已经成为自然语言处理领域研究的热点和难点之一。许多国内外学者都在文本分类领域做了不少的研究工作和一定的贡献,在上世纪五十年代末,H.P.Lunhn等人对文本分类的工作做出了开创性的贡献,它们最早提出了词频统计的思想,Maron在1960年发表了第一篇关于文本自动分类的文章,推动了文本分类的发展,之后更多的学者加入了这一领域的研究。本文首先了解了论文研究的背景知识和其意义,然后分析了文本分类的相关理论知识以及文本分类的一些技术和方法,并指出了它们的缺点和不足之处,在此基础上,本文做出了以下几点贡献:1.提出了基于LDA的弱监督文本分类算法VB-LDA(Latent Dirichlet Allocation with Vector and Bigram)。该算法首先对LDA概率生成模型进行了改进,原LDA模型没有考虑文本中的词语顺序问题,是一个纯粹的词袋模型,并且词语之间两两独立,互不相关。对LDA改进后的文档生成模型首先保持了文档中的词序,并在文档的生成过程中加入了二元语法,即在两个相邻词语之间引入一个状态随机变量x,用来表示相邻的两个词语是否形成二元语法;VB-LDA算法还引入了词向量,在原LDA模型中,得到每个主题的高频词后,一般都是由领域专家根据它们来确定主题的类别,但本文不再由领域专家决定。因此本文引入了词向量化工具word2vec。2.将VB-LDA算法应用到文本分类中。本文利用算法VB-LDA对文档进行分类的主要思路如下:首先用LDA改进模型对文档集生成主题模型,以获取主题的高频词和类别的代表词,然后利用词向量化工具将它们都转化成相应的词向量,最后用距离度量来计算出每篇文档中概率最大的主题所对应的类别,即为该文档的类别。最后在公共数据集:20Newsgroup、WebKB、SRAA上的实验结果表明,本文提出的基于LDA的弱监督文本分类算法VB-LDA在不需要人工标注的训练数据时,也能获得与现有SVM算法很接近的分类能力,同时,该算法在面对其他不以LDA为基础的分类学习算法时,也能取得较好的分类效果。
其他文献
XML已成为Internet/Intranet上信息表示、存储和交换的标准格式。XML实例文档用来记录具体的应用信息,其有效性通常是用W3C XML Schema来定义。由于生成的XML实例文档需要符
细分方法作为一种递归离散化的几何造型方法,其简单高效的特点使得它在在3D游戏和电影娱乐等计算机技术领域得到广泛的应用。随着人们对于虚拟场景画面的真实感和细节性提出了
IEEE1394串行总线已经在消费电子领域得到广泛应用,目前其应用已经延伸到工业控制、航空、航天和军工等领域。这些新的应用领域不仅使得IEEE1394总线的工作环境更加复杂,而且
开放网络上的电子商务已成为现代经济活动的主要形式之一,但电子商务基于Internet这样的异构环境,通信实体间互不信任,且彼此的利益、目标不相同。因而通信实体可根据其自身利益
随着分布式技术以及网络技术的快速发展,各种应用于这类环境的安全访问控制模型被提出并且逐渐被抽象成为通用的访问控制策略模型,并把这类模型应用于分布式异构系统环境之中
传感器技术、无线通信技术和计算机技术是现代信息技术的三大支柱,它们分别完成对被测量对象的信息提取、信息传输以及信息处理三种功能。无线传感器网络是一种新兴的技术理
组播技术,是一种比较理想的实现组通信的网间通信技术。它使用一台或多台计算机作为组播源,一次性发送单一数据报到多个接收者。   应用层组播(Application Layer Multicast
随着计算机技术的不断进步,万维网(WWW,World Wide Web)得到了很大的发展,遍布全球的大多数国家和地区。数据库是网络信息化服务的基础,Web技术和数据库技术相结合成为当前研究
图像拼接(Imgae Mosaic)技术是将一组存在重叠部分的图像序列进行空间匹配对准,经重采样融合后形成一幅包含各图像序列信息的宽视角场景的、完整的、高清晰的新图像的技术。
随着信息技术的高速发展,我们逐渐从信息匮乏的时代走向了信息过载的时代,从海量的信息中获取有用并且感兴趣的信息越来越困难。推荐系统作为克服信息过载的重要工具,受到工