论文部分内容阅读
21世纪以来,互联网的崛起带给了人们大量原始文本信息,如何帮助人们快速掌握最有效信息变得非常重要。建立在人工智能基础上的文本分类技术可根据文本的语义分析实现大规模文本数据的分类,从而帮助人们获取想要的信息。文本分类技术主要通过训练好的具备分类能力的分类器来进行文本分类。在机器学习算法对大量已标注的文档数据进行学习后,我们可以获得传统的监督文本分类器实现对文本的分类。但是这种监督学习方式存在明显的缺点,需要事先对所有的文档进行人工标注,非常耗费时间和精力。基于此,半监督的学习方式被提出来,只需要标注部分文档。但这种方式还是没有完全解决问题,因为对实现大规模的文档数据比如Web数据的分类来说行不通。为彻底克服人工标注文档的不足之处,提出了基于自动标注的文本分类方法,实现了全自动监督文本分类。在自动标注的过程中,通过借助外部语义资源对种类名称进行语义扩展,利用种类名称与文档内容之间的语义相似度对所有原始文档进行自动标注。在文本分类过程中,首先通过分词技术和停用词表对已标注的文档进行预处理,然后通过计算文档特征词的卡方统计量实现特征选择,并对选出来的特征词进行加权,最后将数值化后的训练数据用于机器学习算法进行监督学习,得到一个监督分类器实现文本分类。实验表明,基于自动标注的文本分类方法在不需要人工标注数据的基础上能够实现大规模的文本分类,提高了效率。全自动监督文本分类技术要求对所有原始文档进行自动标注,这样必然会引入噪音,导致分类结果达不到精度要求。为解决分类精度不高的问题,对上面方法进一步改进,提出了基于改进型自动标注的半监督文本分类技术。有两个方面的改进:(1)对自动标注进一步改进,结合更多的外部语义资源以及原始文档本身进行种类名称扩展,同时提出二次筛选算法对初步标注结果进一步优化和筛选,保证过滤出来的部分训练文档被精确标注。(2)采用半监督的学习方式实现文本分类,这样只需要用少部分被精确自动标注的训练文档和大量未标注文档就能获得一个高精度文本分类器。实验表明,改进后的半监督文本分类技术有效避免了自动标注带来噪音的问题,分类精度平均高于其它监督模型的分类效果,具有一定的商业价值。