基于结构信息的中文网页自动分类技术研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:smaboat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅猛发展,推动了网络信息的爆炸式增长。如何从这些异常丰富的网络信息资源中发现有价值的信息,已经成为信息处理领域的一个亟待解决的问题。网页自动分类技术可以在较大程度上解决信息杂乱和“信息爆炸”的问题,在搜索引擎、数字图书馆、信息过滤及信息检索等领域有着广泛的应用。网页作为一种半结构化的文档,含有丰富的结构信息。目前大多数中文网页分类研究倾向于把网页转化为纯文本进行处理,使用纯文本分类技术对网页进行分类。这些研究忽略了文本所在的结构对分类的影响,因此很难达到满意的分类效果。本文从分析网页的特性出发,研究如何利用网页的结构信息加强网页分类效果。本文首先分析了中文网页分类的国内外研究现状以及存在的问题,对中文网页分类中涉及的关键技术进行了详细分析和讨论。然后研究了基于结构信息的网页分类方法。基于结构划分的思想,将网页内容按照其所在的结构元素进行划分,每个结构元素单独训练一个子分类器,对子分类器的结果进行组合,以组合分类器的方法对网页进行分类。实验证明,组合分类器的方法能够改善分类效果。最后研究了基于结构信息的网页层次分类方法,将基于结构划分的网页分类方法用在层次分类中,提出了一种基于结构划分的层次分类方法。实验证明,层次分类可以克服平面分类存在的问题,降低分类的时间复杂度,同时在分类精度方面也有所提高。基于结构划分的层次分类方法优于传统的基于主题文本的层次分类方法,能够取得较好的分类效果。
其他文献
当前针对网络外部的入侵攻击已有相对完善的防护措施,但针对来自系统内部的用户威胁则缺乏针对性的措施。尤其在国防、公安、金融等领域,来自系统内部的越权访问、信息窃取、
Bernoulli数、Stirling数、Euler数在组合数学、函数论、理论物理及近似计算等方面均有广泛的应用。在数字图像中,可以利用欧拉数来描述物体结构,保持图像特征不变;在离散数学中
指针式仪表有很多优点,因此在生产生活中有巨大的存量,而且每年都在增加。面对大量需要进行检定的指针仪表,采用人工读数的方式检定仪表读数不仅成本高效率低,而且读数精确度
随着信息技术的高速发展,信息数据已成为企业拥有的最有价值的财产,信息数据的丢失或损坏会给企业带来无法弥补的损失,数据备份无疑是最佳防范措施。随着企业的发展,需要备份
随着计算机通信与网络技术的发展,网络协议的稳定性和安全性发挥着越来越重要的作用,所以对网络协议的研究有重要意义。形式化的方法将成为分析网络协议的重要方法,目前有很多研
车辆的转向系统是实现驾驶员的操作意图、控制车辆行驶状态和整车操纵稳定性的最重要系统。电动助力转向系统是目前研究及应用的热点,该系统具有部件少、结构简单、节能环保
随着社会经济的迅速发展和无线网络的迅猛崛起,人们对于随时随地都能够提供信息服务的无线通信的需求就与日俱增。由于无线频率资源的日益珍贵,短距离无线通信技术就有着广阔
发展蒙古文远程教育平台,加强蒙古文教育资源建设的规范化程度,对促进蒙古文教学资源的重复利用和共享率、提高蒙古语教学水平有着重要的意义。目前,汉语教学资源规范化方面
随着Internet的快速发展,Web上的数据信息急剧增加,成为了世界上规模最大的公共数据资源,而信息展示网页是主要的展现媒介,大量Web信息是在信息展示页面中表现的,这些信息是
近年来,随着微电子技术、计算技术和低功耗无线通信技术的快速发展,种由微型传感单元、数据处理单元和无线通信模块集成的无线传感器出现。无线传感器网络就是由大量这些微型