论文部分内容阅读
随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,已经日益成为信息处理领域里一个十分重要的研究课题。传统上是依靠人工的方法对网页进行分类,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。随着网页信息容量的快速增长,不可能再依靠人工的方式来进行大量的网页分类。网页的自动分类已经成为信息检索领域的一个很重要的研究方向。通过自动分类可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,同时网页分类技术还可以应用到信息过滤技术中,如保存的URL分类库可以用于URL过滤系统,网页分类的模型用于内容过滤等。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久的保存将有着重要的意义。本文从网页自动分类的原理和过程出发,在系统要求分析的基础上,进行了系统的总体结构设计。详细研究分析了分类各个阶段的技术和方法,主要包括文本表示模型、中文分词算法和特征提取算法等,并分析、比较了几种应用普遍的特征提取算法。针对网页分类结果的存储查询需求,提出了增量存储和反馈查询的策略,有效节省了存储空间,同时反馈查询弥补了网页收集范围的局限性。鉴于存储查询过程中的URL规范化需求,提出了一种基于嵌套FSM的URL解析方法,提高了解析的效率和容错性能。在对网页自动分类和存储技术研究的基础上,提出了网页自动分类和存储管理系统各模块的设计与实现方法,最后通过程序设计语言来实现,并进行测试和验证,重点测试了系统中的网页信息提取、特征提取算法、权重计算算法以及存储查询功能。测试结果表明,系统能够有比较高的分类准确率,达到设计的要求。