网页主题信息抽取研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:p_123_456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,Web已成为全球最大的信息源和知识库。而Web信息的主要载体-网页,除了表达主题的内容外,还有为了维持页面的链接关系而进行的导航设计或出于商业目的等进行的广告及修饰内容,这些对于以网页为数据进行处理的算法而言就是“噪音”。这给Web上基于网页内容的研究工作带来很多困难。这就需要研究对网页主题信息进行抽取的有效方法。   在Web信息抽取领域,国内外学者已经开展了大量的研究工作,对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,仍存在诸多难题。因此迫切希望能有一种方法进行非结构化数据的处理。   本文在前人研究的基础上,针对该领域存在的一些问题,提出了一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。在上述思想的基础上,本文结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,首先定位到包含主题信息的区域,然后过滤掉噪音信息。实验结果证明该方法不依赖于信息源,是一种自动、可靠和通用的方法。
其他文献
流媒体是宽带通信网和多媒体技术共同发展的产物。近年来,随着相关技术的发展和普及,以视频为主的流媒体技术在监控和应急指挥中的应用获得了普遍关注,己经成为近期流媒体技
随着信息网络技术的发展和新的无线网络的出现,用户对移动性的要求越来越高。移动IPv6协议的出现,使得单一接口的移动节点在IPv6子网间移动时可以保持其通信的连续性。目前全
Web Services为网络服务提供了统一的接口和调用模式,而服务组合的目标,就是在SOA的架构内实现对已有服务的重用、生成新服务,这是一个很有应用前景和研究价值的方向。当今对
自二十世纪九十年代末P2P技术出现以来,P2P应用迅速发展,目前已占领多个网络应用领域。P2P应用在为用户提供前所未有的便利的同时,也已经严重影响了其他网络应用的正常开展。
现有的服务组合建模语言中,业务流程执行语言BPEL已成为业界标准。越来越多的工作流通过BPEL进行建模,需要相应的测试技术来保证服务组合能够正确有效地运行。 目前一些研究
随着社会、经济与科技的发展,机器人技术在人们的生活、工农业生产以及航空航天事业中的重要地位日益突显,并成为衡量一个国家科技和制造业水平的重要标志。模块化机器人因其
近年来,随着计算机技术的普及和数据库技术的发展,用数据库记录并保存数据已经广泛应用到了社会生活的各个领域。尤其在商务界更是积累了大量的数据。如何找出数据之间的关联,将
在信息化时代,数字化的信息数据正在以前所未有的速度增长着,信息查询工具已经成为人们日常生活中不可缺少的工具。目前,互联网上已经出现了众多的搜索引擎,为广大的用户提供
文本聚类一直是数据挖掘和信息检索领域的基础性研究议题,它试图将内容相似的文本划分到相同的类簇。文本聚类不仅得到了国内外学者广泛的关注和探索,也在大量实际系统中获得广
随着无线网络技术的普及和工业生产的飞速发展,无线设备信息化管理与“自动化立体仓库”的结合,已成为提高仓储效率展示企业实力的有效手段。在现实应用中,由于立体仓库面积很大