基于可视化分类模式的Web信息重组技术及其应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:BLGKLING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数以万计的门户网站、搜索引擎可实现Web信息发布、浏览、查询和检索等功能,然而,越来越多的用户希望能够有对Web信息进行内容分析、数据挖掘和数据处理,从而智能地“提炼”出与用户需要和业务相契合的数据,这种用户需求决定了Web发展的下一个重要方向是对Web内容进行归纳、组合、集成,在此基础上派生新的信息、生成所需要的集成信息。由于Web信息非结构化问题、自治性,引发了Web异构性以及语义理解差异等问题,如果希望对Web内容进行归纳、组合、集成,必须有一个统一的语义理解方式,因此,需要对来自不同Web信息源的信息进行某种方式的语义描述和处理,以便支持从多个Web信息资源中抽取的必要信息派生或集成出新的信息。 为对Web信息内容进行组合、归纳、集成,并派生新的用户需求信息,必须对Web信息进行某种方式的元数据描述,在此基础上通过信息重组为用户提供来自多个异构信息源的信息的统一视图。为此,本文研究了Web信息的语义描述问题,提出了作为Web信息源的元数据描述模型的可视化分类模式。以可视化分类模式为核心,本文从Web信息抽取、Web信息语义异构消除、Web信息分类、Web信息重组机制和Web信息重组方法等方面对Web信息重组技术进行了深入研究。 (1)针对实现Web信息重组过程中Web信息的非结构化表示以及描述的不一致性问题,本文提出了可视化分类模式,构建了基于可视化分类模式的Web信息重组机制。可视化分类模式为包含异构信息源的Web信息重组提供了一种公共的Web信息描述方式,支持从多个Web信息资源中抽取的必要信息派生或集成出新的信息,并通过Web信息重组为用户提供来自多个异构信息源信息的统一的视图,为实现Web信息个性化服务奠定了基础。 (2)针对在基于可视化分类模式的Web信息重组过程中的可视化分类模式的元信息获取问题,本文提出了基于HTML标签分布统计的Web页面分块算法,构建了基于Web分块算法的Web网站分类体系抽取机制,解决了Web页面的多样性和非规范性问题。实验表明所提出的信息抽取方法具有较高的准确率。 (3)针对在基于可视化分类模式的Web信息重组过程中的Web信息的语义异构问题,本文构建了基于SUMO框架的Web分类领域本体WCO,Web分类领域概念融入SUMO公理系统,便于采用SUMO-KIF进行自动推理,WCO具有兼容性、可复用性、可扩展性。形成了SUMO框架结构下逻辑一致的标准可视化分类模式,为消除Web信息重组所产生的语义异构提供了有效支持。 (4)针对实现基于可视化分类模式的Web信息重组和按不同的用户视点来表现Web信息模式集成问题,本文提出了基于概念相似度和结构关系相似度计算的分类概念层次结构调整策略,给出了基于WCO的可视化分类模式的合并算法,实现了异构Web信息源的合并。 (5)为应用本文提出的一整套基于可视化分类模式的Web信息重组机制,本文设计并实现了一个Web信息服务应用系统(NEU-WIIS)。利用该系统,用户可以在统一的视图下有效地获取多信息源、多样式、多类别的自己定制的Web信息,为用户有效地利用Web信息提供方便、高效的支持。
其他文献
本文提出了一种新的基于HSV颜色空间的彩色图像数字水印算法。该算法采用彩色图像作为水印嵌入到原始彩色图像中。 该算法根据HSV颜色空间的特点,首先将RGB格式的彩色水印
本文是以刑事审讯辅助决策支持系统作为研究背景。针对刑事审讯辅助决策支持系统中出现的两类问题进行了研究。第一类是关联规则应用过程中的增量挖掘问题,第二类是基于多形态
云计算是一次新的IT浪潮,它将带来生活、生产方式和商业模式的根本性改变。云环境的安全性、云用户个人信息的私密性随着云计算的发展也越来越受到人们的关注,云平台的可信性已
小波分析从引入图像图形领域后,就一直是计算机图形学和图像处理应用的一个重要工具。小波分析方法是一种时间窗和频率窗都可改变的时频局部化分析方法。对于大小不同的尺度成
随着计算机在日常工作中的广泛应用,人们越来越多的工作需要依靠计算机完成。与此同时,社会生产力的提高,人们的分工越来越被细化,大部分的商业逻辑被细化为很多步骤,需要协同工作
电力系统中的信息化管理从70年代末开始兴起。近些年来,各个电力企业纷纷建立了企业内部的局域网,将系统中的生产、管理系统联合起来,实现各部门之间的信息交互。然而各送变电站
针对不同疾病的个体差异进行的基于医学影像的计算机辅助诊断,涉及的问题是非常复杂的。但是概括起来主要是两方面的基础:医学图像处理和肿瘤病理特征。放射科医生在阅片时,
随着网络技术的发展,嵌入式技术和网络技术的结合是大势所趋。然而,就目前而言,嵌入式设备大多采用无线网络接入的方式,无线网络具有低带宽、高延时、易断线等缺点,无法适应信息化
神经网络是功能强大的数据建模工具,已成功应用于求解分类问题和回归问题。结构选择是神经网络研究的热点之一,针对具体问题,选择合适的网络结构对提高网络训练的速度、增强网络
基于双目视觉的线段长度测量是一种非接触式测量技术,具有效率高、精度高、非损伤性等特点,在工业测量中具有广泛的应用前景。但在实际应用中,在各个步骤中的误差累积会影响