论文部分内容阅读
数以万计的门户网站、搜索引擎可实现Web信息发布、浏览、查询和检索等功能,然而,越来越多的用户希望能够有对Web信息进行内容分析、数据挖掘和数据处理,从而智能地“提炼”出与用户需要和业务相契合的数据,这种用户需求决定了Web发展的下一个重要方向是对Web内容进行归纳、组合、集成,在此基础上派生新的信息、生成所需要的集成信息。由于Web信息非结构化问题、自治性,引发了Web异构性以及语义理解差异等问题,如果希望对Web内容进行归纳、组合、集成,必须有一个统一的语义理解方式,因此,需要对来自不同Web信息源的信息进行某种方式的语义描述和处理,以便支持从多个Web信息资源中抽取的必要信息派生或集成出新的信息。
为对Web信息内容进行组合、归纳、集成,并派生新的用户需求信息,必须对Web信息进行某种方式的元数据描述,在此基础上通过信息重组为用户提供来自多个异构信息源的信息的统一视图。为此,本文研究了Web信息的语义描述问题,提出了作为Web信息源的元数据描述模型的可视化分类模式。以可视化分类模式为核心,本文从Web信息抽取、Web信息语义异构消除、Web信息分类、Web信息重组机制和Web信息重组方法等方面对Web信息重组技术进行了深入研究。
(1)针对实现Web信息重组过程中Web信息的非结构化表示以及描述的不一致性问题,本文提出了可视化分类模式,构建了基于可视化分类模式的Web信息重组机制。可视化分类模式为包含异构信息源的Web信息重组提供了一种公共的Web信息描述方式,支持从多个Web信息资源中抽取的必要信息派生或集成出新的信息,并通过Web信息重组为用户提供来自多个异构信息源信息的统一的视图,为实现Web信息个性化服务奠定了基础。
(2)针对在基于可视化分类模式的Web信息重组过程中的可视化分类模式的元信息获取问题,本文提出了基于HTML标签分布统计的Web页面分块算法,构建了基于Web分块算法的Web网站分类体系抽取机制,解决了Web页面的多样性和非规范性问题。实验表明所提出的信息抽取方法具有较高的准确率。
(3)针对在基于可视化分类模式的Web信息重组过程中的Web信息的语义异构问题,本文构建了基于SUMO框架的Web分类领域本体WCO,Web分类领域概念融入SUMO公理系统,便于采用SUMO-KIF进行自动推理,WCO具有兼容性、可复用性、可扩展性。形成了SUMO框架结构下逻辑一致的标准可视化分类模式,为消除Web信息重组所产生的语义异构提供了有效支持。
(4)针对实现基于可视化分类模式的Web信息重组和按不同的用户视点来表现Web信息模式集成问题,本文提出了基于概念相似度和结构关系相似度计算的分类概念层次结构调整策略,给出了基于WCO的可视化分类模式的合并算法,实现了异构Web信息源的合并。
(5)为应用本文提出的一整套基于可视化分类模式的Web信息重组机制,本文设计并实现了一个Web信息服务应用系统(NEU-WIIS)。利用该系统,用户可以在统一的视图下有效地获取多信息源、多样式、多类别的自己定制的Web信息,为用户有效地利用Web信息提供方便、高效的支持。