【摘 要】
:
随着信息化技术的发展,人们越来越倾向于从网络上获取资源。传统搜索引擎能够检索到的网络资源称为Surface Web,而Surface Web仅占整个Web资源的很少一部分。那些隐藏在Web数
论文部分内容阅读
随着信息化技术的发展,人们越来越倾向于从网络上获取资源。传统搜索引擎能够检索到的网络资源称为Surface Web,而Surface Web仅占整个Web资源的很少一部分。那些隐藏在Web数据库中,靠提交查询生成动态页面获取的资源称为Deep Web。Deep Web信息含量大,领域相关度强,如何高效的获取这些资源成为当前研究的关键问题。Deep Web集成查询系统是由同领域的Deep Web入口集成的一个全局查询接口,通过对这个集成接口提交查询,可以同时检索到不同Web数据库中的资源。预处理阶段是系统集成过程中的初始阶段,它主要分三步进行:Web入口的发现、查询接口模式抽取、查询接口集成,其最终结果的好坏对后面查询处理和结果处理有着重要影响。因此上述预处理阶段各个步骤采用哪种技术能够获得更高的效率是本文研究的出发点。本文的主要研究工作如下:(1)分析了Deep Web查询表单的特征,针对现阶段Web入口发现技术的优缺点,提出将多分类器聚焦爬行技术应用到Web入口发现上,重点给出各分类器的实现方法,并介绍了种子URL的选取策略;根据查询表单分类过程的启发式规则提出采用基于决策树的表单分类方法,区分出那些非Web入口的查询表单。(2)研究Web入口的模式特征,针对HTML页面的结构性特征提出基于DOM树和DWI对象模型的模式抽取方法,首先通过网页解析器将接口页面解析成DOM树结构,然后遍历DOM树找出属性元素及其对应的标签,最后用DWI对象模型将查询接口的模式信息表示出来。(3)比较现有模式匹配技术的优劣势,针对查询接口属性元素的特点,提出基于语义的模式匹配方法,该方法从简单匹配和复杂匹配两个角度分别给出了属性相似度的计算公式,使得模式匹配具有更高的效率。针对所提出的预处理阶段相关技术,本文分别设计了具体实验,用实验结果证明上述各个方法的有效性。
其他文献
摘 要:为落实新课标的教学理念,提高学生的习作能力,让学生写出表达真情实感的好作文,从三个方面进行探索和引导。 关键词:积累;想象;创新 一、拓展积累时空 叶圣陶强调:“写东西要靠平时的积累,不但作家、文学家是这样,练习习作的小学生更是这样。”积累素材是习作的关键环节。要积累素材,就要走进生活,关注社会。因此,习作教学要引导学生拓展习作素材的积累时空,在现实生活中学习观察、认识生活、积累素材
作为解决公共交通“最后一公里”难题的交通方式,公共自行车系统能有效提升城市公共交通整体服务水平。但是,公共自行车系统在迅速发展的同时,也经常出现“无车可借”与“无
在当今需求个性化、多样化和快速化的市场环境下,使得按订单生产模式、适时配送方式和供应链管理思想成为企业应对快速变化的市场、提高客户满意度以及降低成本的重要途径。因此,从供应链运作的层次和调度的角度,如何对客户的订单和所有车辆进行合理有效的安排,无论对供应商企业还是客户都具有重要的意义。结合安订单生产模式与适时配送方式的特点,建立了订单作业调度与车辆调度模型。模型中考虑的因素全面,在客户方面,考虑了
随着我国电子商务的飞速发展,网络购物的交易规模日益庞大,其带来的巨大收益也使得各大电商平台或商家之间的竞争越来越激烈。在网购产品品牌、价格以及广告等同质化的情况下,网
一、 复习导入——忆“形” 1. 我们继续来学习课文——《燕子》。这是一篇状物类小散文,以前我们也学过类似的课文,比如《石榴》《荷花》,作者用一篇文章来描绘一样事物,表达了对事物的喜爱和赞美之情。来,用好听的声音,带着喜爱的感情,齐读课题! 2. 瞧,一只可爱的小燕子飞来了!我们来回忆一下它的样子吧!(指名背第1自然段)(板书:外形美) 【设计意图】状物类散文写作时,外形描写是重点。本文对燕
新课程改革以来,教师的校本培训已经成为专业发展的一条重要途径。而校本培训中的重要一环就是集体备课。但笔者所在的农村小规模学校语文学科中的实施现状,不容乐观。笔者梳理了一下,大致存在以下几种现状。 【现状1】一人唱独角戏 某校,语文学科组10人。该组制定了集体备课的要求,取名为“五定”:定时间、定地点、定内容、定人、定流程。看起来,制度毫无瑕疵,但是语文备课组长却叫苦不迭,为什么?因为学校小,语
随着企业业务运营环境的复杂、信息量的不断膨胀以及业务需求的不断提高,传统商务智能通过对历史性数据进行分析,帮助企业进行决策支持功能已经无法满足企业用户的需求,越来