论文部分内容阅读
Internet的开放性和日益增长的规模,为人们提供了自由交换信息的便捷手段。同时巨大的开放信息源也使一些恶意的和不良的(反动、色情等)内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监管,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监管的技术和服务。为此研发先进的文本内容安全监管技术是一项紧急而又重要的课题。
本文综合运用机器学习、模式识别、数据挖掘、知识发现、自然语言理解、中文信息处理、粗糙集理论、人工智能等学科的相关知识,通过分析各类不良信息的特征,结合文本信息处理目前研究进展,深入研究了适合不良文本信息过滤的模型、文本预处理技术、文本特征选择技术、过滤算法以及相关应用等。
首先,对国内外不良文本过滤现状及相关过滤系统的研究状况进行了讨论分析,分析了基于PICS(PlatformforInternetContentSelection)的内容选择,基于URL的过滤,基于特征词过滤的优缺点,指出智能内容过滤是进行文本深层次分析的必要技术,并指出了文本安全过滤的应用领域。研究了处理大样本集的文本预处理技术、特殊字符处理技术、快速词频统计算法、网页正文获取等关键技术。
其次,研究了文本处理中的文本表达技术和特征选择技术,包括Filter特征选择技术,Wrapper特征选择技术,基于粗集的特征选择技术,以及权重计算和归一化技术。指出了各种特征选择技术的优缺点,并对文本表达技术进行了实验。得出不同的过滤器需要采用适于其本身的文本表达方法,正确的归一化能够得到较好的结果。实际的样本集一般是不平衡样本,不同的过滤器对于不平衡样本集实验结果的性能差别较大。实验表明:中心向量法、支持向量机基于向量空间模型来表示文本,正确归一化后,和没有归一化前比较,性能有很大的提高。NaiveBayes由于采用概率模型表示文本,在标准样本集(平衡样本集)上得到了同中心向量法和基于支持向量机的方法相当的结果。而且在实际样本集(不平衡样本集)上,对于训练集,准确率差于中心向量空法和基于支持向量机的方法,然而在过滤未知不良样本上,准确率非常差,而中心向量法和基于支持向量机的方法较好。分析表明一方面由于不同反动网站的反动样本语法风格不一样,另一方面由于反动样本特征空间较大,基于概率的统计方法不能反映全部特征空间分布。中心向量法和支持向量机对于平衡样本集或不平衡样本集都表现了较好的性能。
第三,讨论了粗糙集的基本概念,指出了粗糙集的理论本质。研究了粗糙集属性约简算法,比较了基于区分矩阵的约简算法和基于属性重要度的约简算法,指出基于区分矩阵的约简算法在处理文本属性时是不可行的。提出了一种混合的属性约简算法,实验表明该方法在处理文本信息时是非常有效的,一方面利用常用的特征选择方法降低了文本维数,另一方面利用粗糙集约简算法去掉了很多冗余属性。
第四,提出了一种粗糙集和相关过滤器相结合的针对主题特殊文本过滤的新方法,且基于属性重要度,对文本属性进行前向选择提出了一种新的粗糙集属性约简算法,它产生几个约简,由于各约简基之间没有相同的属性,实验表明在处理不良文本数据时,具有更强的过滤能力。整个过程分成两个阶段:首先将多约简算法作为前端预处理工具,进行文本特征选择,大大降低了属性维数,然后用统计方法设计过滤器进一步对约简后的属性进行分类过滤,计算量大大减少,同时提高了分类速度。通过实验结果可以看出,对未经粗糙集约简的文本属性集和经过快速约简的文本属性集比较,当约简个数m取值增加后,所选择的属性个数大大减少,中心向量法和基于支持向量机的方法在训练集和测试集上都达到了未经约简前的准确率。
第五,融合粗糙度和知识的粗糙熵,引入粗集的粗糙熵来量测知识的不确定性。这种测度量测知识的不确定性比粗糙度和知识的粗糙熵更充分。得出粗集的粗糙度、知识的粗糙熵、粗集的粗糙熵随着知识更细的划分而单调下降。
最后,开发了内容安全网关中不良文本过滤模块,设计了一个有效的不良文本过滤架构。基于多模式匹配算法研究设计了高效的不良文本过滤引擎,并应用于安全网关和电子邮件过滤系统中。