论文部分内容阅读
当今世界,随着信息技术的不断进步,各类信息资源都以较快的速度增长并呈现出海量的特征,其中数据主要还是以文本的形式出现。信息量已经满足人们的需求,但是如何高效地管理并且使用海量数据成为目前迫切需要解决的问题,这促进了对文本分类相关领域的研究。文本分类技术研究的主要核心内容包括两个部分:分类模型和文本表示。目前文本表示方法可以分为两种类型,一种类型是引入语言学特征;另一种类型利用统计学方法挖掘出文本的主题信息。前者由于需要较为复杂的语言学特征处理从而降低了整个系统的效率,其实用性受到影响;后者的典型代表就是PLSA语义模型以及LDA语义模型。语义模型是一种基于统计学理论的概率模型,模型构建出“文档-主题-词汇”三层结构来得到数据集中的潜在语义(主题)。本文给出了基于点间互信息的LDA(Point-wise Mutual Information LatentDirichlet Allocation,PMI-LDA)主题模型和基于最近距离的LS(Laplace Score)主题选择算法。LDA模型不是判别模型,而是一个生成模型,在生成文本的过程中通过EM算法得到潜在的主题层。但是,在利用LDA主题模型生成文本的过程中,模型会同等对待文本中的每一个单词,这样会造成主题向高频词倾斜,同时还会造成主题重叠现象。本文的主要贡献有三点:首先,提出PMI-LDA主题模型,模型能够克服主题向高频词倾斜及主题重叠的问题,使得我们提取出的文本主题更能表征一篇文本。实验证明,本课题提出的算法是可行的。然后,本文还从两个角度来评价提取出主题的优劣,一是从主题一致性、可读性上来评价,从主题本身出发,根据主题所包含的单词的可读性和一致性,对主题的优劣进行评价;二是从模型中主题的区别能力和相似性上来评价,从整个模型出发,根据主题的相似性和区别能力来评价提取出的主题的优劣。从实验中可以清晰的看到,PMI-LDA主题模型提取出的主题,不管是在可读性、一致性上,还是在区别能力、相似性上都优于LDA主题模型提取的主题。最后,当使用主题作为文本的特征时,根据主题存在优劣的事实,不同的主题不应该同一而视,课题提出了基于最近距离的LS算法来计算主题的权值,并应用到文本分类中。