论文部分内容阅读
在现有的众多文本分类方法中,关联分类以其较高的准确率和较快的训练时间而成为一种重要的自动文本分类方法.针对汉语言的特殊性,本文提出利用prefix-hash-tree作为中文词表数据结构,并设计了相应的查找、插入和重构算法,从而可以方便地将中文文本转化为事务数据,该数据结构同时也可以作为一般中文信息处理的电子词表数据结构。