论文部分内容阅读
搜索引擎的搜索结果包含了大量网页,用户如何从中快速获取所需信息是十分重要的问题。因此,研究人员提出对搜索结果进行网页自动分类,使结果按内容类别呈现给用户,提高用户查询效率。网页自动分类一般包括网页净化、特征选择、向量表示、训练算法、分类算法等五个部分。本文对网页自动分类进行了深入的研究,重点研究了网页净化算法和特征选择算法,并将研究结果应用到一个针对搜索结果的网页自动分类试验系统中。论文的内容主要包括以下几个方面:1.介绍了网页自动分类的一般过程,并详细分析了向量表示与分类算法过程。2.提出了一种基于局部语义的网页净化算法。新的算法克服了相关研究工作中对网页内容块划分过细、内容块特征提取不完整的缺点,能够自适应地调整网页内容块的范围。实验表明算法是有效的。3.提出了一种改进的特征选择算法CD-DF。算法引入“类间频率差”的概念,有效地去除了特征词空间中的噪音特征,提高了特征词的表达能力。实验表明,CD-DF算法提高了系统的分类性能。4.实现了一个针对搜索引擎检索结果的网页自动分类实验系统。通过实际运行表明,实验系统提高了用户使用搜索引擎的效率,并证明了新的网页净化算法和改进的特征选择算法在实际应用中的有效性。