深层网络数据源发现与查询结果抽取研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:InsideCSharp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络中蕴藏的有价值信息愈来愈多。但各站点提供的信息在数量及质量上都存在巨大的差异。这给人们选取高质量信息带来了困难。搜索引擎技术可以对网络资源进行分类整理和检索,极大地提高了人们获取有价值资源的效率。然而有的数据资源位于后台数据库中,不能被传统搜索引擎检索,这部分网络资源称为深层网络。深层网络所包含的数据具有结构化程度高、数据量大、质量优质等特点。因此,研究这些数据具有重要的意义。本文针对如何发现并抽取深层网络数据展开了相关研究。要利用深层网络中的信息,首要问题就是发现深层网络的数据源。其次,对于向深层网络提交查询后所返回的结果数据区域,如何自动发现这些区域是对其信息抽取的前提。针对这些问题,本文主要完成三个方面的工作:研究并改进了一种数据源的发现方法;采用了一种新的网页结构相似度比较算法,在算法的基础上实现了网页数据区域的识别:设计了深层网络信息集成系统框架,并实现了数据源发现与结果网页信息抽取功能模块。首先是深层网络数据源的发现及方法改进。论文设计了一种数据源发现框架。针对查询接口的判定问题,本文分析了查询接口与其他表单的区别,采用了一系列规则进行判断。数据源一般只限某一类领域,为准确查找数据源,必须判定其是否与主题类别相关。论文分析了传统数据源分类方法在特征选择方面的不足之处,并对特征选择策略进行了改进。实验表明,改进的方法能有效发现主题相关的数据源站点。然后是网页信息抽取及新算法的应用。本文通过分析在线数据库返回结果页面的特点,发现每个数据区域对应的标签树在结构上十分相似。论文采用了一种新的网页结构相似度比较算法,识别数据区域所在位置。新算法将网页的标签表示成树的形式,并定义一种特殊的子树,将整个树的比较划为对这些特殊子树的比较,实验证明了此算法能有效反映网页结构的相似程度。使用该算法找出数据区域所在位置之后,本文利用网页结构特点及关键词提取相关记录,并将这些信息抽取出来。最后是深层网络数据集成框架设计与主要模块实现。论文设计了深层网络信息集成框架。并且在第三章数据源发现方法及第四章深层网络结果页面信息抽取方法的基础上,实现了该集成框架的主要模块。
其他文献
随着信息技术的高速发展,云计算已经成为了产业界、学术界以及政府等各界关注的焦点。至今为止,云计算凭借其自身的便利性、高效性和高扩展性等优势吸引了众多企业的目光。云
总体经验模态分解(Ensemble Empirical Mode Decomposition,简称EEMD)是针对经验模态分解(Empirical Mode Decomposition,简称EMD)中存在的模态混叠问题提出的一种非平稳信号
随着大数据量计算技术的发展,基于数据处理的应用受到广泛关注,而数据源的结构也显示出多样化的趋势,这些数据中不仅有传统的非实时的、静态结构化数据,还有很多实时的、动态产生
随着信息技术的发展,网络上数据以指数级在增长,出现信息过量的情况。这种状况使得用户不得不花费大量的时间和精力寻找有用的信息。在此背景下,推荐系统应用而生,帮助用户走
在实际生活中,摄像机经常被安装在停车场、交通路口、机场、银行等地方进行监控。由于需要配置人员来进行持续的监控导致这是一项乏味并且耗时的工作。如果能够开发一套自动化
无线传感器网络技术是现代技术研究的热点方向之一,有着重大的应用前景和科学研究意义。但是无线传感器网络中的节点往往带宽和能量有限、计算和存储能力较弱,传统无线路由协
离群点检测是数据挖掘领域一个重要的研究方向,用于揭示隐藏在数据中的重要信息,尤其在医疗诊断,入侵检测网络,信用卡欺诈,传感器敏感事件检测,地球科学等领域被广泛应用。而由于人
随着数据爆炸的时代到来,海量数据存储的问题也随之而来。HDFS(Hadoop Distributed File System)作为主流的开源云计算系统Hadoop的基础构件之一,由于其低成本、高度容错、支持
随着我国国民生活水平的提高,对于猪肉品质的要求也在不断的提高。影响猪肉品质的因素有很多,在实际检测过程中存在各种各样条件的限制。如何实现对生猪肉质低成本、快速、可靠
软件保护技术是保护软件版权信息的一种技术,它可以增加软件被盗取的难度,识别软件是否被非法复制。软件特征是从软件本身提取出软件的特有属性,作为识别该软件的唯一标记。