Internet网页自动分类技术的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:liyan19821021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎的搜索结果包含了大量网页,用户如何从中快速获取所需信息是十分重要的问题。因此,研究人员提出对搜索结果进行网页自动分类,使结果按内容类别呈现给用户,提高用户查询效率。网页自动分类一般包括网页净化、特征选择、向量表示、训练算法、分类算法等五个部分。本文对网页自动分类进行了深入的研究,重点研究了网页净化算法和特征选择算法,并将研究结果应用到一个针对搜索结果的网页自动分类试验系统中。论文的内容主要包括以下几个方面:1.介绍了网页自动分类的一般过程,并详细分析了向量表示与分类算法过程。2.提出了一种基于局部语义的网页净化算法。新的算法克服了相关研究工作中对网页内容块划分过细、内容块特征提取不完整的缺点,能够自适应地调整网页内容块的范围。实验表明算法是有效的。3.提出了一种改进的特征选择算法CD-DF。算法引入“类间频率差”的概念,有效地去除了特征词空间中的噪音特征,提高了特征词的表达能力。实验表明,CD-DF算法提高了系统的分类性能。4.实现了一个针对搜索引擎检索结果的网页自动分类实验系统。通过实际运行表明,实验系统提高了用户使用搜索引擎的效率,并证明了新的网页净化算法和改进的特征选择算法在实际应用中的有效性。
其他文献
随着城镇化建设的不断发展,汽车已经得到普及,人们也越来越重视除基本生活外的精神建设。然而由于机动车的数量急剧增加、出行人数日渐增多,使得交通变得日加拥挤,引发了更多的交
随着市场竞争的日益激烈,各行业务需求的频繁变化,作为企业管理信息化、过程自动化的一项关键技术--工作流技术,其可靠性、完善性、可塑性、适应性研究成为当今研究热点之一。具
生物特征作为人类个体的内在属性,具有很强的个体独立性和区别差异性。因此,如何有效地将个人的生物特征应用于计算机智能信息处理应用领域吸引了广大研究学者们的浓厚兴趣,从而
SIFT特征匹配算法通过侦测与描述影像中的局部特征,所提取的特征点描述子对图像的旋转和尺度变换具有不变性,因此在图像处理领域应用广泛,但该算法也存在一些缺点。首先,SIFT
数学计算是新时代科学技术进步的重要标志之一。特别是随着计算机的问世,利用计算机进行高效地数学计算,在各个领域有着举足轻重的地位。 从数学计算分类来讲,一般分为符号计
知识发现和数据挖掘是人工智能、机器学习、数据库和统计理论等相结合而形成的新的研究与应用领域,序列模式发现是数据挖掘的一个重要分支,具有广阔的应用前景。随着信息技术日
近些年云计算技术的应用越来越广泛。由于云计算技术在互联网行业中的快速发展,数据的大小和复杂程度(大数据)急剧增加,促使Map Reduce和分布式文件系统,如HDFS(Hadoop分布式
近年来,随着嵌入式系统技术与产业发展,嵌入式平台已经被广泛运用到各个领域,嵌入式系统联网并接入互联网成为必然,因而也带来网络安全问题,必需提供有效解决方法。而在现在所有的
本文研究了IMS域彩铃彩像平台SIP通信监控系统的实现方法。IMS域通信网络是包括通信网在内的多种网络融合发展的趋势。随着通信网络的进步,越来越多新的通信业务不断出现,为这
UML 是一种定义良好、面向对象、具有丰富表达能力的、成熟的图形化建模语言。它不仅仅支持面向对象的分析和设计,更重要的是支持从需求分析开始的软件开发全过程。 在软件