【摘 要】
:
互联网按“深度”可以分为Deep Web和Surface Web。与通过超链接访问的Surface Web不同,Deep Web中的信息只能通过向表单提交查询来获得。Surface Web上的信息多为非结构化信
论文部分内容阅读
互联网按“深度”可以分为Deep Web和Surface Web。与通过超链接访问的Surface Web不同,Deep Web中的信息只能通过向表单提交查询来获得。Surface Web上的信息多为非结构化信息。Deep Web则正好相反,其中蕴含的信息绝大多数是结构化信息,因而受到研究人员的重视。Deep Web数据源分类和Deep Web查询接口模式抽取是Deep Web信息获取的关键技术。根据Deep Web信息的特点,本文使用本体技术解决Deep Web信息获取技术上的一些难题,有效地解决了传统方法的局限性。首先,本文基于互动百科、CWB中文词库中的知识,根据Deep Web信息的特点,使用Protege本体编辑器,通过人工方式为图书、电影、音乐、数码产品、房地产这五个领域建立了中文本体,为Deep Web数据源分类和Deep Web查询接口模式抽取提供了中文本体知识库的支持。其次,针对中文Deep Web网站,提出了基于查询接口文本的Deep Web数据源分类方法。该方法使用查询接口中的文本信息作为分类属性集,基于空间向量模型,利用本体构造特征,提高了分类准确率。最后,提出了基于本体的Deep Web查询接口模式抽取方法,使得计算机能够在语义层次上理解查询接口,并在领域本体的帮助下将查询接口模式转换为本体模式。本文对5个领域200个查询接口抽取模式信息,实验结果表明本文方法的准确率和召回率均高于传统的基于启发式规则的方法。
其他文献
随着大数据时代的来临,各领域产生的信息呈现出几何式爆炸增长的趋势,其中有些高速的海量数据需要被实时处理。在这种背景下,流处理系统应运而生。大部分流处理系统采用的是连续
人类对自身之美的研究已经有几千年的历史了,人类对美的不断追求,促进了人的审美意识不断提高,同时也促进了社会的发展,而面部美学又是其中的研究重点。古今中外对于人脸美学的研
随着计算机和网络技术的高速发展,以并发性、分布性和实时性为主要特征的并发与分布式系统已成为计算机的主流研究方向。从C.A. Petri提出Petri网以来,各种从不同侧面反映并
BGP协议是目前Internet上唯一应用的域间路由协议,其任务是依据特定的路由策略,维护那些构成 Internet的自治系统之间的可达性。但是当前对 BGP协议的应用已经远远超出其最初的
随着近代计算机技术的飞速发展,语音识别技术日趋成熟,尤其是孤立词语音识别技术取得了较高的识别准确率,然而随着语音识别技术限制条件的放宽及实际应用环境的限制,仍存在一系列
网络技术的迅速发展,给人们的生活及生产带来了巨大转变,它在丰富人们精神生活的同时,也给人们的工作带来便捷。但是,计算机网络是一柄双刃剑,它具有联结形式多样性、终端分
数字视频属于国家重点发展的信息产业领域,宽带网络和数字电视的迅速发展,使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据,对视频摘要技术的研究
骨肿瘤是发生于骨骼或其附属组织(血管、神经、骨髓等)的肿瘤,是一种常见病。骨肿瘤有良性,恶性之分。良性骨肿瘤易根治,预后良好。恶性骨肿瘤发展迅速,预后不佳,死亡率高。
SaaS软件服务模式通过将离散的软件买断模式转化为集中的软件租用模式,使用者可以根据自己的业务特点和需要灵活的定制数据库的相关功能。同时中间件的发展为SaaS模式提供了
随着互联网的飞速发展,网页数量呈指数增长。面对互联网上的海量信息,如何快速、准确地从海量信息中找到自己需要的信息成为当前亟待解决的问题。网页分类作为信息组织和处理的