论文部分内容阅读
随着信息技术的飞速发展,特别是Internet的普及应用,Web上的文本信息爆炸式的呈现在人们面前。信息的激增使得我们需要有效地对其进行归类、过滤以不断提高人们在海量信息中寻找有效内容的效率。文本分类技术是根据文本的内容或者属性,在给定的分类体系下,由计算机自动的将大量文本归到相应的类别中。它能够处理大量的文本,可以在一定程度上解决信息紊乱的现状,方便用户定位查找所需的信息。传统文本分类算法采用关键词作为特征来构建,认为关键词之间是相互独立,没有语义关联的。虽然得到了快速的发展,但仍面临着一些问题,如没有考虑文本的结构信息及丰富的语义关联特征导致分类的效果未能达到满意的精度。而近年来网络上又有丰富的语义数据可利用,如WordNet、Wikipedia等。本文认为,充分利用这些丰富的语义数据,是提高文本分类效果的思路之一。文本分类首要面临的问题是文本数据如何表示,即文本表示模型。目前大多数文本分类方法都是以向量空间模型为基础。这种文本表示模型方法虽然比较简单,但却引发了向量空间模型的高维性和稀疏性问题,一方面使得文本分类具有相当高的时间复杂度;另一方面忽视了特征项之间的语义关联性,导致了大量语义信息的丢失,从而得到的特征向量不能很好的表示文本内容。所有这些问题都干扰了文本分类的效率及准确性,使得文本分类的性能有所下降。为了解决上述问题,本文参考语义词典WordNet提供的语义信息,提出了新的文本表示模型,研究实现了一个文本分类原型系统。针对不同类型特点的文档,选取基于概念的文本表示模型或基于距离图的文本表示模型方法,其中在概念向量空间表示模型中,以概念来作为文本特征,将具有同义关系的关键词映射到同一个概念;在距离图结构表示模型中,加入文档结构的分析,把文本特征项表示为距离图的节点,特征项间的共现关系描述为图结构的边,进而将文本映射为图结构。最后将支持向量机(SVM)分类算法与文本表示模型相结合,并使用复旦大学中文语料库测试该系统性能,从召回率、准确率和F-Measure 3方面与传统文本分类系统实验对比,结果表明本文系统中提出的方法比传统文本分类系统整体效果有所提升,其中平均准确率提高12.49%,平均召回率提高13.5%,平均F-Measure提高23.16%。总之,本文面向几个特定领域,对文本分类中的特征抽取、文本表示模型、文本分类算法等关键技术进行了理论分析和实验验证,提出了一些解决方案,并以实验结果证明了这些方案的有效性。这些算法和模型对今后研究文本分类及其他文本处理问题将有一定的参考价值和借鉴作用。