论文部分内容阅读
针对邮件文本分词效果较差的特点,提出采用一种改进的最大匹配法来进行中文分词的方法.该方法对于普通的邮件文本和一些具有特定格式的邮件文本都可以进行有效的分词;文中还利用φ2统计法生成新词,对词典起到了动态更新的作用,提高了分词的精度和准确度.两种方法在邮件过滤系统中结合应用,使分词的误分率低于0.025.