论文部分内容阅读
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。 本文从过滤不良信息的实用技术角度出发,对基于Web文本内容的不良信息过滤系统进行了研究和设计。 本文主要工作包括: 构建了基于Web文本内容的不良信息过滤系统的模型。 提取Web页面中标记信息和正文文本信息,组成训练文本集。 按照一定的方法从训练文本集中抽取特征项,并经过反复训练,建立起特征词典。 利用特征词典完成对训练文本和测试文本的表示:正文文本建立VSM表示,标记信息采用布尔模型表示。 建立分级匹配策略,完成两者之间的匹配,以决定是否屏蔽测试文本。