基于标签分析的网页正文提取技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lili123456li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过分析新浪、搜狐、网易、腾讯、百度、中国新闻网、中华网、21CN网这八大网站中的噪音数据特点和它所产生的影响,并利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法,可用于网页正文的自动提取。当然,这两种方法对于XHTML和XML也是可行的。为简便起见,本文在下面的全部内容中,将省略对XHTML和XML的重复说明。本文的研究内容及成果如下:①在分析网页中与网页正文内容相关和无关的文字链接和图像链接的基础上,结合HTML标签及其内容,提出了与网页正文内容无关的链接判断模型。②本文综合分析了大量的新闻网页中图像标签的特点,在统计的基础上得出了与网页正文内容相关和无关图像的较准确范围。③分析传统的DOM树、静态正则表达式等提取网页正文的技术之后,本文提出了区域分块的概念、确定网页正文标题位置的相似率,并在此基础上,进一步提出了基于区域分块的HTML标签的提取网页正文内容的两种方法:基于区域分块的HTML元素删除法和元素内嵌式提取法。④采用八大网站的新闻网页作为测试集,针对本文提出的两种网页正文提取方法,做了相应的测试。将本文中的两种网页正文提取方法和传统的方法做了比较,结果表明,文中的两种方法都能比传统方法更好地实现网页正文内容提取。综上所述:本文提出的区域分块的HTML元素内嵌式提取法和区域分块的元素删除法,在维持网页结构和内容不变的情况下,能够较准确地提取出HTML文档的主题内容,而不依赖于源网页的结构,是一种自动、可靠和通用的方法。由于本方法基于HTML规范,提取后的网页内容和结构与源网页一致,有很高的可扩展性。在技术实现中,通过与网页采集程序结合,对HTML文档进行预处理,提取出主题内容,提高了检索效率和查准率。该方法因可以较好地剔除广告和无关图片等信息而具有可观的应用参考价值,既可满足PDA和手机用户的即时访问需求,又可应用于信息检索领域的自动文摘和自动分类系统。
其他文献
科学和工程应用领域中的很多问题都可以通过数学建模转化为函数优化问题(Function Optimization Problems, FOPs),因而对函数优化问题的研究具有十分重要的理论和实际意义。免
随着Internet的快速发展与普及,如何在开放、动态、难控的网络环境下实现各类资源的共享和集成已经成为计算机软件技术面临的重大挑战之一,流程建模技术也受到更为广泛的关注。
随着互联网的发展和智能终端的普及,短信、微博、微信等现代信息传播手段被广泛应用,它们都具有使用便捷、传播快速等优点。相对而言,短信对受众的年龄与知识水平、移动终端
进入21世纪以来,各类网站社会性网络化的倾向明显,越来越多的网站集购物、交友、聊天、论坛和博客于一体,为用户提供全方位的服务。作为个性化服务的一种方式,个性化推荐系统能够
随着网络通信技术的飞速发展,多播路由的通信方式受到普遍重视。但当前多播路由算法的研究大多针对无约束多播路由问题和时延受限多播路由问题,在应用中缺乏典型性和实效性。本
关联规则挖掘作为数据挖掘领域中最活跃的研究分支之一,其目的是发现数据集中潜在的、新颖的、并为人类所理解的数据项间的关系。概念格理论,又称形式概念分析,用于概念的发现、
卫星舱装填问题可简单描述为:将给定的仪器和设备等有效载荷合理地、紧凑地放置在卫星舱的承载板上,满足给定的性能约束前提下,使舱室尽可能小。求解该问题时,一般都是将仪器
人类基因组计划和许多物种基因组测试的完成标志着一个新的生物学研究时代─后基因组时代来临了,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重
微博作为一种新兴的社交媒体,近几年发展迅速,影响越来越广泛,逐渐成为一种重要的交流平台。微博网络的大量用户组成了不同的虚拟社区,有效挖掘具有网络结构内聚性和用户兴趣
根据测评系统功能可定制和可扩展的要求,测评系统采用了基于组件的软件开发方法。该系统由基于组件的可扩展动态框架、公共库组件、测评组件、密码算法组件和XML文件五部分组