【摘 要】
:
随着互联网的大规模普及和持续高速发展,成千上万的新闻网站应运而生并源源不断发布海量新闻网页。然而计算机程序并不能直接地理解新闻网页中哪些部分是新闻标题和正文,因而
【出 处】
:
浙江大学计算机科学与技术学院 浙江大学
论文部分内容阅读
随着互联网的大规模普及和持续高速发展,成千上万的新闻网站应运而生并源源不断发布海量新闻网页。然而计算机程序并不能直接地理解新闻网页中哪些部分是新闻标题和正文,因而无法对网页中的内容进行有效检索。因此在网络应用背景下的信息检索对信息自动提取技术存在巨大需求。本文中研究了两种各有特点的网页新闻提取技术,并基于这两种技术设计及实现了一个网页新闻提取系统。1)本文首先研究了一种基于新闻网页结构一致性的网页新闻提取算法。该算法基于网页模板自动推导,并紧密结合新闻网页的结构一致性特点:通过填充模板动态生成的网页中包含的数据尽管各不相同,但都具有相似的网页结构。该算法在传统的模板推导算法基础上引入了重复模式归并技术,提高了网页聚类过程的准确性。此外该算法通过有效利用少量的用户标注,有效区分了网页模板中的重要和无关内容。2)本文随后研究了一种基于新闻网页视觉一致性的网页新闻提取算法。该算法具有与模板无关的优点,能够提取由未知模板生成的新闻网页。该算法基于机器学习模型的泛化能力,有效地抓住了新闻网页的视觉一致性特点:新闻网页中新闻标题和正文部分都具有符合用户阅读习惯的版式设计。本算法为新闻标题和正文分别设计了专门的空间和内容特征,有效表达了新闻网页设计的长期实践中积累而成的视觉一致性。最终在24个中英文网站的7594个网页上的实验表明,本系统具有较高的提取准确率。
其他文献
进入新世纪,在宽带无线接入领域,无线网络技术的发展日新月异,一种新的无线网络技术——无线Mesh网(WMN,Wireless Mesh Networks)逐渐发展起来,显示出其巨大的发展潜力,引起
移动机器人的研究开始上个世纪60年代末期,是人工智能、机器人学、仿生学、控制理论和电子技术等多种技术学科交叉的产物。随着科技的发展和社会的进步,机器人已经走出实验室
位置感知的服务(LBS:Location Based Service)是一种通过定位用户的位置信息,从而为用户提供空间位置相关的相应服务的技术。目前LBS的应用以GPS导航为主,个人移动设备上的LB
农业信息化、数字化是21世纪世界农业发展的必然趋势,是农业现代化的重要内容之一。加强农业信息系统化建设是推进农业信息化的基础性工作。农业专家系统经过几十年的发展,其
现在第四代移动通信已趋于成熟,人们更加关注移动宽带网络传输的服务质量(QoS),尤其在多输入多输出(Multiple-Input-Multiple-Output,MIMO)系统下的视频多播方面。随着第五代
互联网、移动互联网等技术的发展,使得服务器上的Web日志急剧膨胀。Web日志记录了上网用户访问Web页面的浏览行为,对网站建设和提供精准服务具有重要的指导意义。但是,原始We
在当前国内配电网信息系统中,管理信息系统重复建设问题严重,这不仅浪费了巨大的财力和时间,而且大量的信息资源不能充分发挥应有的作用。本文提出了构建基于面向服务体系架
图像半色调化是一种广泛应用在图像处理领域中的影印技术。近年来随着高分辨率、大尺寸规模图像的应用,传统的图像半色调化串行算法已不能满足实时处理的需求。异构众核处理
随着Internet的快速发展以及信息技术在各个科学领域的普及,在同一科学领域的不同机构,数据的表现方式呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利用
随着互联网应用的发展和社会信息化的深入,需要处理的数据的规模和越来越大,传统的存储系统已经适应不了新的存储需求。由于基于DHT的P2P网络具有去中心化的资源利用和去中心