论文部分内容阅读
基于WWW 的主要信息过滤对象是网页,其中文本是网页信息的主要表达方式。然而现在可用的网页信息过滤系统一般都是手工输入过滤关键字,仅通过简单的字符匹配查找,或是人工导入要过滤的网络端口或链接地址(URL)。显然这样的过滤机制太过笨拙,而且查准率和查全率都很低,面向文本内容识别的智能化信息过滤系统正拭目以待。本文介绍了信息过滤技术的发展现状、存在问题和信息过滤方法,并详细讨论了信息过滤的关键技术和一个完整的自适应过滤系统所必须具有的组件。文中设计的智能网页信息过滤系统名为AIFS,是基于内容理解的中文文本网页的主题探测和过滤。该系统紧密结合了人工智能在信息处理的四大应用:知识获取、知识表示、自然语言理解和机器学习。本文是以AIFS 系统的实现为依托,对智能信息过滤系统的关键技术进行了深入探讨。其中,网络数据处理章节讲述了Windows 下的网络数据包捕获库WinPcap 的原理和实现,并分析了从以太网数据帧中提取网络文本数据的全过程。文本数据处理章节介绍了中文分词和文本表示,详细描述了在AIFS 系统中涉及到的分词算法(如正向最大匹配法、逆向最大匹配法、最大概率法和设立切分标记法)以及基于向量空间模型的文本表示算法,并设计了一种网页文本表示改进算法。自适应处理章节重点讲述了机器学习在智能信息过滤系统中的应用,以AIFS的遗传算法的学习机制为例,实现了一个具有人工智能特性的信息过滤系统。