论文部分内容阅读
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计一规则方法的网页层次分类技术。实验表明,基于统计一规则方法的网页层次分类技术能够获得比较理想的分类效果。