论文部分内容阅读
随着互联网的发展,Web已经成为人们获取信息的重要渠道和手段,但同时里指数增长的Web信息,又对人们如何从中获取有效的信息带来了巨大挑战。探索自动、高效的网页信息检索方法,以提高人们定位、查找相关信息的能力,已经成为人们普遍关注的热门研究课题。网页自动分类技术作为web挖掘的基础,正在受到越来越多研究者的关注。与普通文本分类不同,网页含有大量与主题不相关的干扰,这严重影响了网页分类的质量。事实上,目前网页自动分类的效果普遍不佳。本文的目的是,在传统文本分类的基础上,针对网页数据的特性,研究利用支持向量机进行网页自动分类的相关技术和方法,以提高网页分类的效果,促进Web分类技术的发展。本文主要研究内容如下:
(1)直接采用传统向量空间模型,在网页分类中不能充分利用网页特征信息。本文结合网页数据的特点,采用基于分块重要度的特征项权重系数,改进了传统向量空间模型,得到了更合理的网页特征向量。
(2)联合特征选取。文档频率特征选取(DF)和卡方检验特征选取方法(CHI)是两种常用的特征选取方法。但是,单纯使用DF不能有效选取较强类别信息的词项,单纯使用CHI统计方法则不能很好地过滤低频词中的噪声词。因此,本文提出了一种DF和CHI联合特征选取方法。该方法综合利用了DF和CHI方法的优点,能够选取较好的特征词,以改善分类器的效果。在2007年全国搜索引擎与Web挖掘中文网页分类评测中,使特征空间的维数降为8177,远低于其它院校的数万维。
(3)变步长的支持向量机核函数参数优选。目前,支持向量机的参数选择没有统一的理论原则,大都依靠实验逐步寻优得到。本文采用变步长的参数优选方法进行参数选择,首先用大步长的参数选择方式,快速确定一个较优参数的可能范围;然后在该范围内再用小步长方法逐步找到更好的参数。虽然该方法不能保证获得全局最优参数,但是能够在较短的时间内获得令人满意的参数。
本文所提出的特征向量提取方法和所实现的网页分类模型,在数字图书馆、主题搜索、个性化信息检索、搜索引擎目录导航、信息过滤、主动信息推送服务等领域具有广泛的应用前景。