论文部分内容阅读
随着Internet应用的飞速发展,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。本文针对信息系统集成及整合的需要,系统地研究了网络信息精确获取所涉及的技术,并将这些技术有机地结合在一起用于一个网络信息精确获取系统的设计与实现。 Web信息获取是信息挖掘技术中一个重要技术,是指从Web上大量的信息中得到数据对象间的内在特征,并以此为依据进行有目的的信息获取的方法,它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域。本文首先从体系结构和技术实现方面对网络信息搜索的理论和工具进行了全面的回顾,并总结了当前搜索工具所存在的主要问题及局限性,如检索方式不科学,索引方法不合理,结果显示单一,个性化能力差等;然后对Web信息获取技术的发展现状进行了综述,重点研究了Web信息精确获取所涉及的关键技术,包括搜索引擎技术、信息抽取技术和自动分类技术等,并提出了一个网络信息精确获取的解决方案。 本文将Web文本挖掘的思想引入WWW信息处理领域来解决Web信息精确获取的问题。针对目前在HTML文档中没有表达语义的模式信息,通过用户选定样本页面,预先定义模式,并且通过系统对样本页面和其中的样本记录的学习形成知识库,利用知识库抽取数据信息,形成训练文本集;在此基础上,信息获取系统从样本中提取目标信息的特征,然后根据目标特征进行有目的的搜寻,将搜寻到的信息提交给用户,以获得使用户满意的结果。 根据上述思想,本文设计了Web信息精确获取技术的一个原型系统NIAS,并给出了系统实现中的一些算法。