基于支持向量机的网页自动分类方法研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:youtodown1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,Web已经成为人们获取信息的重要渠道和手段,但同时里指数增长的Web信息,又对人们如何从中获取有效的信息带来了巨大挑战。探索自动、高效的网页信息检索方法,以提高人们定位、查找相关信息的能力,已经成为人们普遍关注的热门研究课题。网页自动分类技术作为web挖掘的基础,正在受到越来越多研究者的关注。与普通文本分类不同,网页含有大量与主题不相关的干扰,这严重影响了网页分类的质量。事实上,目前网页自动分类的效果普遍不佳。本文的目的是,在传统文本分类的基础上,针对网页数据的特性,研究利用支持向量机进行网页自动分类的相关技术和方法,以提高网页分类的效果,促进Web分类技术的发展。本文主要研究内容如下: (1)直接采用传统向量空间模型,在网页分类中不能充分利用网页特征信息。本文结合网页数据的特点,采用基于分块重要度的特征项权重系数,改进了传统向量空间模型,得到了更合理的网页特征向量。 (2)联合特征选取。文档频率特征选取(DF)和卡方检验特征选取方法(CHI)是两种常用的特征选取方法。但是,单纯使用DF不能有效选取较强类别信息的词项,单纯使用CHI统计方法则不能很好地过滤低频词中的噪声词。因此,本文提出了一种DF和CHI联合特征选取方法。该方法综合利用了DF和CHI方法的优点,能够选取较好的特征词,以改善分类器的效果。在2007年全国搜索引擎与Web挖掘中文网页分类评测中,使特征空间的维数降为8177,远低于其它院校的数万维。 (3)变步长的支持向量机核函数参数优选。目前,支持向量机的参数选择没有统一的理论原则,大都依靠实验逐步寻优得到。本文采用变步长的参数优选方法进行参数选择,首先用大步长的参数选择方式,快速确定一个较优参数的可能范围;然后在该范围内再用小步长方法逐步找到更好的参数。虽然该方法不能保证获得全局最优参数,但是能够在较短的时间内获得令人满意的参数。 本文所提出的特征向量提取方法和所实现的网页分类模型,在数字图书馆、主题搜索、个性化信息检索、搜索引擎目录导航、信息过滤、主动信息推送服务等领域具有广泛的应用前景。
其他文献
随着计算机技术,特别是计算机网络化的迅速发展,网络服务的日益增多,敏感信息通信的普遍化。信息的保密性,完整性及可用性已受到学术界的高度重视。信息安全也成为信息科学领域研
网络安全问题越来越受到人们的关注,为了解决网络攻击的简单化和网络防御的复杂化之间的矛盾,网络安全研究开始由单纯的被动防御向主动防御转变,将网络犯罪行为诉诸法律就是主动
信息技术的飞速发展加快了信息的创建和传播速度,使人们能够更加自由的进行知识的分享和交流。但是海量信息的存在也产生了不可忽视的负面影响-信息过载。搜索引擎等信息检索
信息可视化技术自上世纪90年代中期出现并兴起后,正从根本上改变着人们表示、分析和理解大型复杂数据的方式。而多维数据的可视化作为该领域内的经典问题,一直备受研究者的关
双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问
伴随着计算机网络技术的不断发展,人类信息技术日新月异,网络安全已成为行业应用的重要组成部分。作为网络安全分支之一的入侵检测系统主要识别各种入侵行为和入侵事件,一直
交叉调试代理是嵌入式交叉调试系统的重要组成部分,也是使用最为普遍的一种调试方式。但无论是调试桩程序、调试服务器还是ROM Monitor、Rom Emulator这样一些交叉调试代理,
作为一个极富挑战性的高技术密集型项目,机器人足球吸引了越来越多的研究和关注。路径规划问题是机器人足球中类人机器人避障比赛中的重要部分,其实时性和稳定性对整个比赛起着
随着互联网技术的发展,电子商务在我国的经济建设的地位越来越重要。商品搜索引擎是电子商务网站一个重要的部分,是用户在网站上购物的入口,起到连接一切商品的桥梁的作用。传统
随着人们饮食条件的提升以及生活方式的多样化,消化道疾病逐渐成为困扰人类健康的一大因素。如何更高效地预防和诊断消化道疾病成为一个社会性的问题。无线胶囊内镜正是为此