基于朴素贝叶斯的网页自动分类技术研究

来源 :北京化工大学 | 被引量 : 7次 | 上传用户:gulangxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本与网页分类技术是文本挖掘和网络挖掘的一项重要研究内容,已成为数据挖掘领域技术发展的热点之一。随着数据处理工具、先进数据库技术以及网络技术迅速发展,大量的形式各异的复杂类型的数据(如结构化与半结构化数据、超文本与多媒体数据)不断涌现。因此数据挖掘面临的一个重要问题就是针对复杂数据类型的挖掘,这包括复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和Web数据。该选题是建立基于一定分类算法的网页文本分类模型,研究怎样合理利用网页文本内容信息、链接结构信息、用户使用信息,将这三种类别信息整合起来达到较为完整的反映页面所属类别的目的,并在此基础上建立针对特定网页信息的过滤系统。论文介绍了一种结合网页的使用者信息及其链接结构层次的中文网页分类方法,和传统的仅仅基于网页内容的或网页链接的分析方法不同,本论文提出的这种方法能够充分利用其他的Web类信息,诸如用户的使用信息和链接层次信息,以达到改进或增强网页分类器的效果和特点,并在此基础上采集数据进行了实验,通过对得到结果的分析,证明这种方法是有效的。此外在文章的最后部分分析了网页分类方法在信息过滤技术中的应用,结果证明利用用户信息可以提高过滤的准确度。
其他文献
本文以某深潜救生艇(DSRV)为研究对象,对其动力定位(DP)系统进行仿真。DSRV的动力定位技术是一种用于深潜救生作业的跨学科高新技术。它利用艇体自身的动力抵抗外界干扰,动态
学位
在四足机器人运动控制研究中,最大行进速度是衡量机器人控制性能的核心指标之一,在作动器性能一定的前提下,通过改进控制方法提升机器人运动速度有着重要意义。本文以通过对
面对海量的监控视频资源,实现智能分析和发现有效信息面临巨大挑战,视频目标跟踪作为视频智能分析的重要内容受到越来越广泛的关注。当目标在运动过程中遭遇遮挡、光照和姿态
森林病虫害严重制约我国造林绿化和生态环境建设,而传统的化学防治效率相当低下,因此研究基于机器视觉的农药精确对靶施用技术十分必要。针对农药精确对靶喷雾技术中,由于树
本文以液位控制系统为研究对象。虽然常规PID控制器以其算法简单,鲁棒性好等特点被广泛应用于工业过程控制中,但是存在一定缺限,它不能根据被控对象参数的变化作出动态调整。
对于面向城市交通环境的自主车,一个能全面描述道路信息的地图是必不可少的。普通的商用导航地图能为驾驶人员提供道路的拓扑信息,然而,这对于自主车来说远远不够。自主车不
四足仿生机器人能够在野外复杂的地形环境中以较高的速度实现稳定行走,具有较大的负载能力。实现四足机器人的稳定运动是其各项应用的前提和保证,本文针对四足机器人对角步态
动量轮(MV)是卫星姿态控制的关键执行机构。随着我国航天装备制造能力的不断进步,其可靠性不断提高,使用寿命也大为延长,在较长时间内往往难以观察到其发生失效,可见动量轮具
随着计算机科学与技术的迅速发展,人们对科学技术提出了新的更高的要求,其中高效的优化技术和智能计算的要求日益迫切。微粒群优化算法(PSO)是一种新兴的智能优化算法,由于其