基于Web页面结构的网页数据提取研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wakaji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪50年代世界上第一台计算机问世以来,尤其是最近几十年随着互联网技术的飞速发展,英特网上来自全球领域的数据呈现指数型的增长。我们的日常生活也早已和这些海量的数据密切相关。互联网上的数据当然主要以Web数据为主要载体。但是由于受到web固有半结构限制再加上网页随处可见的与主题信息毫不相干的广告等噪声信息,这样使得我们对于自己感兴趣的信息难以从海量的web数据中获取并利用。于是研究如何准确方便的从海量的信息中提取人们关心的目标信息数据并且结构化存储起来变得越来越重要。目前这方面的研究已成为国内外学者研究热点之一,基本上多数的研究都是在HTML标签的解析基础上基于网页DOM树结构或者视觉树,然后通过一些包装器的设计等方法进行人工或者半人工也有自动化的提取技术,很多研究也取得了很好的效果。本文的研究也是建立在DOM树的结构基础上,针对列表型页面的数据提取做了详细的研究。提取结构特征值,通过对特征值的处理引入了中介数学理论。在定位目标数据区域的算法研究中,本文首先在基于对HTML解析成DOM文档树的基础上进行了优化处理。并且提出了“基于XPath的叶子节点路径改进算法”该算法输出DOM文档树叶子节点一个路径。此路径结构是后续的工作的可行性至关重要的基础。在此基础上把中介数学理论系统(MMT D)引入并且针对DOM树的结构特征提出了“基于MMTD目标数据区域定位算法(DL_MMTD) ",这个对模糊世界进行量化处理的数学方法被用在计算机科学的多个领域,尤其是模糊集处理方面。但是本文首次把中介数学理论应用到了网页信息提取研究上来,并且取得了不错的效果。紧接着对数据记录进行提取算法研究。提出了数据记录长度的概念。并且相应提出了“基于路径结构的数据记录长度求取算法(CDL_PathStructure)"。在得到每一个数据记录的数据长度的基础上都数据记录的数据项做依次提取工
其他文献
医学图像配准是指在不同的时间、不同角度以及不同模态下获取的多幅医学图像,经过一系列的变换,使相同解剖结构(点)在同一空间坐标位置上一一对应的操作。图像配准是医学图像
电子支付是电子商务中最核心和最关键的环节,是电子商务得以顺利进行的基础条件。由于电子支付需要在开放的网络上进行,所以支付过程中敏感信息需要各种机制来保证其安全性,
Internet信息的迅速膨胀,在为我们带来海量信息的同时,也容易使我们在Internet中迷失方向。搜索引擎的出现在一定程度上解决了这个问题,但是仍然无法很好地主动地寻找到我们
大型物体数字化采用视觉测量的手段来实现,为获得较高的测量精度,往往需要分块测量,利用三维曲面拼接技术将区域数据进行整合拼接,实现物体整体形貌测量。测量回转体时,因回
作为自然灾害之一的地震其破坏力极为巨大,地震的发生往往也是在不经意中,而带来的是重多的人员伤亡事故和巨大的经济损失。同时我国又为世界上发生地震活动较多的国家之一,
问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。它允许用户以自然语言提问,并能够返回简洁、准确的答案,其研究兴起的主要原因是人们对快速、准确
中等职业教育是社会教育体系中一个重要的组成部分,主要任务是培养现代化高素质、技能型的普通劳动者。随着中职招生规模的扩大,中职教育的质量问题也逐渐被人们所关注,而教师教
伴随着信息技术的发展,在网络时代出现了大量基于Web的应用系统。面向服务的体系结构(Service-Oriented Architecture)对现代软件开发模式产生了深远的影响。面向服务体系结
在有线数字电视行业,随着支持解码HEVC(High Efficiency Video Coding)的超高清机顶盒上市,形成了MPEG-2、H.264/AVC和HEVC三种标准同时使用的局面,其中为了支持早期部署仅支
作业调度是计算网格中一个关键性的研究课题。在网格环境中,作业从提交给网格系统到作业结果处理完成,都一直处于网格作业管理系统的管理之下。由于网格具有大规模、异构、动