论文部分内容阅读
为了进一步准确过滤对青少年危害较大的色情网页,在汉语词法分析系统添加去禁用词功能实现中文分词,通过改进的词频-逆文档频率及文档频率-互信息方法完成特征提取,从而实现基于支持向量机的过滤方案。并在给出的余弦夹角公式的基础上,提出了一种基于余弦夹角法的中文网页过滤方案。结合两种方案,实验证明在统一资源符总库存在条件下方案对色情等网页过滤效果进一步提高。