论文部分内容阅读
监督型的分类模型通常需要大量标注好的文本作为训练数据,并且分类精度很大程度上取决于标注文本的数量和质量。然而,标注大量的文本是十分费力和耗时的,而且还涉及人为干预。因此从实践的角度来探讨减少标注文本所带来的代价是很重要的。降低标签获取开销的一个可能的解决方案,就是在文本分类模型中整合人类的领域知识。我们提出一种新的无监督文本分类方法叫作基于种子词的无监督文本分类(Seed Guided Topic Model),以下简称STM。在我们的模型中,不需要标注整篇文本,取而代之的是只需要标注出几个和类别相关的词,又称为"种子词"。相较于标注整篇文本,这在很大程度上减轻了对人工的需求。STM是基于LDA的模型,"话题"推断仍是文本分类的基础,不同于LDA只有一种"话题",我们会假设每篇文本都会包含两种话题:"类别相关话题",即与某一文本类别息息相关的话题;和"一般话题",即话题内容并没有明显的类别方向。每个"类别相关话题"关联到一个特定的文本类别,代表这个文本类别的具体谈语义。"一般话题"则致力于捕捉整个文本集的全局潜在语义信息。通过在两个一直为文本分类领域广泛使用的数据集上进行的实验,STM被证明始终优于现有的无监督文本分类器。对于几个词频重叠度较高的类别,STM甚至表现出比SVM这样监督型算法更优秀的分类精度,这也间接证明了无监督分类模型的良好潜力。进一步的实验表明,STM对调优参数不敏感,可以在比较广泛参数设置上都保持一个稳定的性能,这些优点使之成为一种可以被用于实际环境中的模型。