论文部分内容阅读
文本分类技术应尽可能包含语言中各种各样的约束信息,但目前常用的文本表示方法却忽视组成文本的语言特征顺序.该文采用基于聚类的方法实现语言特征有序对的快速量化表示,并由此导出新的基于特征有序对的文本表示方法以揭示文本中所呈现出的语言特征顺序信息.运用向量空间质心法,分别依据词对和词类对表示文本并在3个数据集上进行实验.结果表明性能优于基于单纯词或单纯词类的文本表示方法,宏平均F1值绝对提高分别为3%~4%和5%~7%(相对改善分别是4%~5%和8%~10%). 由此说明特征顺序信息对提升文本分类性能具有重要作用.