基于内容单元的网页解析与内容提取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wyzxfjjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取所需要的知识和信息。然而互联网上的网页普遍存在着一些与用户需求无关的噪声内容,这些内容影响了搜索引擎对网页的处理质量。因此,对全部网页的预处理工作就必不可少。本文的目的在于通过网页预处理技术,为搜索引擎建立一个内容精炼、格式完整、编码统一的净化网页库,为其他模块提供数据支持。网页处理技术经过多年的发展,逐渐形成了DOM结点解析与分块解析两种思路。然而由于对网页分划粒度的不当,前者容易割裂结点之间的语义关联,后者很难过滤分块内部的内容。为了弥补他们的缺陷,本文找到了一种介于二者之间的网页解析粒度,称为内容单元,并在内容单元粒度上完成了网页预处理工作。本文的研究内容主要包括以下几个方面:(1)提出网页内容单元的定义,并以内容单元为粒度完成网页分割解析;(2)利用内容单元反映出来的网页结构特征和语言特征,完成主题型网页的识别;根据内容单元的组成、结构和功能,利用启发式规则对其进行取舍,完成网页正文内容的提取;识别具有特定功能的内容单元,提取他们当中蕴含的网页题目、时间、导航等信息;(3)在单个网页的基础上构造并行净化程序,完成搜索引擎T级(terabyte)原始数据的净化,重组格式,统一编码。从实验中得到的结论证明了网页内容单元解析粒度的有效性,对比显示了基于内容单元的网页预处理对主题型网页识别和正文提取效果的提高。同时Inar网页预处理模块的效果在网页分类应用中得到了验证。
其他文献
鱼的年龄知识是鱼类资源评估和管理的一个重要考核指标,传统年龄估计方法就是鱼类科学家根据耳石内钙化形成的结构来判断鱼的年龄,但由于耳石的形成、发育受许多因素的影响,
随着网络技术的发展和持续完善,为使用户获得更好的用户体验,诸多个性化推荐系统不断涌现。协同过滤技术是传统个性化推荐系统中发展较为完善、应用较为广泛的一种推荐技术,
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog具有动态性、交互性以及共
数字视频质量评估在视频压缩、处理以及视频通信领域中起着十分重要的作用。可见,视频质量评价的研究不仅有重要的理论价值,而且有广泛的应用需求。本文介绍了视频质量评价的定
IMS(IP Multimedia Subsystem)是3GPP提出的支持IP多媒体业务的子系统。它的显著特点是采用了SIP(Session Initiation Protocol)体系,通信与接入方式无关,可以具备多种媒体业
元搜索引擎是基于搜索引擎基础之上的搜索引擎,它可以同时检索多个成员搜索引擎,对成员搜索引擎返回的结果信息进行融合、再加工后二次陈列给用户,解决了用户跨搜索引擎检索的问
互联网近年来的飞速发展,造就了一批以社交为主的网站,其中国外的Facebook,Twitter,Google+,国内的QQ空间,豆瓣,人人等最为流行。这些社交网站每天都会有大量的用户使用,并且
随着信息技术的快速发展,网络安全、隐私保护等问题越来越受到人们的重视。传统的解决这些问题的方式是设计复杂的密码学协议强化安全性,但传统的解决方式都是基于中心化的系
信息粒度广泛存在于现实世界中,是对现实的抽象。粒度计算即信息的粒化处理,是信息处理的一种新的概念,覆盖了所有有关粒度的理论、方法和技术的研究,是模糊集理论、词计算理论、
知识管理有利于提高企业产品开发、制造、销售及服务的质量和效率。知识管理通常包括知识获取、知识评价、知识重用、知识修改及更新等流程或者活动。知识管理系统是辅助企业