面向deep web的数据抽取与结果聚合技术研究

被引量 : 0次 | 上传用户:moovent_chrisx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的高速发展,网络资源越来越丰富,一方面拓宽了人们获取信息的渠道,另一方面信息的秩序混乱又使得用户难以浩瀚万千的信息中获取需要的信息,搜索引擎为用户提供网络信息的检索与分类功能。在网络资源中,有一种资源是传统搜索引擎索引不到的。这种资源叫deep web资源。Deep web资源是指传统搜索引擎不能索引到的资源,是能够被访问的在线web数据库。deep web资源因其资源丰富,专业性强,自动更新速度快,数据海量,领域范围广等优点。越来越受到人们的青睐。研究如何对通过deep web查询接口返回的数据进行抽取以及对抽取结果进行聚合具有重要的理论意义和实践价值。本文针对deep web资源的数据抽取与结果聚合进行研究,数据抽取阶段,首先简要介绍MDR,总结MDR在deep web页面信息抽取中遇到的效率问题,从MDR数据抽取算法中得到启示,对MDR算法进行改进以降低数据抽取的时间复杂度。抽取算法使用标签树对HTML页面进行表示,在抽取之前对页面清洗,规范化并构造标签树。使用标签树的结构相似度定位数据记录。相似度计算方法改进了树编辑距离算法时间复杂度高的缺点,改进了元素比较法的不能真实反映树结构的缺点,在面向deep web的数据抽取中有较好的抽取效果。然而有些数据记录之间的相似度较低,使用基于标签树的相似度的数据抽取算法也会有不好的情况,为了解决这种标签结构的数据记录识别问题,在改进通过标签树结构相似度判定数据记录的基础上,提出一种基于子树不完全匹配的数据记录抽取算法。结果聚合主要研究的是抽取结果去重,在去重之前先按照属性权重排序,减少了比较次数,实现数据记录的快速有效去重。实验表明,基于标签树路径的结构相似度的数据记录抽取算法的抽取效率比MDR高,同时证明基于子树不完全匹配的数据记录发现算法的抽取效果比MDR和基于标签树路径的结构相似度的数据记录抽取算法都好。按照属性权重排序后的去重算法比直接去重算法效率要高。
其他文献
老城保护与更新一直是规划界关注的课题 ,南京以 5 0平方公里的老城为单元进行保护与更新的全面规划 ,并经历整体———分区———整体不断反馈深化过程的规划 ,在国内并不多
<正>教学内容人教版一年级上册第8课。教学过程第一课时一、创设情境,导入新课师:同学们,你们喜欢蓝猫吗?今天蓝猫也来到了我们的课堂。(出示蓝猫卡通图片)他听说我们班的同
预科汉语阅读教学是汉语教学中一项重要的任务,提高预科学生汉语阅读能力是汉语教学的目的之一。从MHK书面表达测试对写作的要求出发,可通过以下措施来提高学生的写作水平:重
教师是学校管理的主体。在学校管理中,教师主体是否积极地参与管理过程,在很大程度上决定了学校管理的效能。文章运用激励理论,对如何激发教师的工作动力进行了分析,提出了一些有
<正>网络舆论是指公众在作为公共领域的互联网领域中的对某些社会现象和问题的主观反映,是网民意见、态度及其情绪在网络上的集中体现。网络舆论对网络空间所产生的势能不断
2010年春季学期,广西柳州柳城县古砦仫佬族乡九年义务教育阶段学校农业户口的学生们,和柳州其他少数民族贫困地区学子一起吃上了“免费午餐”。至此,柳州“免费午餐阳光工程
对平衡碳氧积进行了简要分析,从热力学角度温度是影响碳氧积的主要因素。从动力学角度,底吹对氧位影响较大,以唐钢目前底吹流量情况,应充分发挥底吹作用降低终点氧位。分析了
<正>"木秀于林,风必摧之。"这一古老的哲言在现世中屡屡应验,足见古人的智慧。著名特级教师于永正老师几十年来在小学语文界叱咤风云,可谓"木秀于林"也。然而,却几乎没有什么
期刊
工薪家庭证券投资投资额度小,缺少证券投资分析知识,对收益期望值过高,风险承担能力弱。应树立正确的投资理念,把握正确的操作策略。
<正>像打哈欠具有"传染性"一样,在备受争议的资源民族主义的影响下,很多矿业国家近年来相继出台了保护本国资源开发及从中获得更多利益的政策。如今,是不是新一轮"涟漪效应"