网页正文提取相关论文
随着Internet/Intranet的迅速发展,基于WWW的网上信息的收集、发布和相关的信息处理日益成为人们关注的焦点。面对着网络上新闻信......
中国联通公司内部办公系统平台涉及众多公文、合同、论文文档。对这些文档的有效管理主要是根据需要汇总,便于存档和打印,同时提供......
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的......
由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于We......
目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一......
本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文......
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化......
社会化书签系统是Web信息资源收集、管理、分享的有效工具,但是它的社会化功能取决于用户量与资源量。本文主要的研究内容是如何将......
随着互联网技术的迅猛发展,以及网络信息的爆炸性增长,网页的数量也开始了急剧增加,人们也越来越习惯于借助搜索引擎这一工具来从......
随着信息技术的不断进步,互联网逐渐走进人们的工作生活,网络舆情越来越能够精确反映当前社会热点、民众的态度需求,因此许多政府......
随着互联网技术的持续高速发展,网络上的网页数目成爆炸式增长,搜索引擎已成为人们日常生活中必不可少的获取信息的工具。然而,原......
随着互联网的快速发展,互联网信息规模呈指数级增长,同时互联网海量信息的背后伴随着质量的参差不齐,准确,快速,全面的获取信息变得越来......
随着Internet的高速发展,Web已经成为世界上规模最大的公共数据源。人们可以从Web获取信息,可以通过Web与其他人交流,可以在Web上......
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中......