Web挖掘中聚类算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:forest_28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,Web数据以指数级的速度快速增长,对Web资源所蕴涵的潜在价值的需求促进了数据挖掘技术在其中的应用。由于Web数据的海量、高维、动态以及不可预测性,基于Web的聚类研究已逐渐成为了新的热点。   本文对聚类算法在Web挖掘中的应用展开研究,针对Web文本数据的特点,对已有的聚类算法做了一定的改进,使其能适应于Web文本挖掘,并且提高聚类的准确度。   论文首先针对K-means聚类算法在Web文本挖掘中的应用,引入了一种新的数据预处理方法,并优化了初始质心的选择,设计了改进的K-means聚类算法。接着,研究了蚁群聚类算法及其在Web挖掘中的应用。针对传统的蚁群聚类算法(ACCA)未考虑各维特征贡献率的缺陷,引入了特征加权算法,并且使用了新的概率转换函数;针对ACCA中离群点问题,提出了一种基于层次聚类和蚁群聚类的组合聚类算法-层次化蚁群聚类算法(HACCA)。论文还进行了算法实现,并基于《人民日报标注语料库》的文档-特征矩阵做了仿真实验,验证了所设计的各个算法对Web文本挖掘的有效性。   论文对聚类算法在Web挖掘中的应用做了有益的研究。
其他文献
内存已成为当前计算机系统性能的主要瓶颈之一,它的访问速度通常比处理器慢上数百倍。为缩小内存和处理器间的速度差异,cache得到了普遍应用。它对计算机性能的影响也随内存
大型复杂系统的模型往往需要通过系统分解的形式来构建。很多系统构建模型方法都只能构建静态模型,不提供对系统模型的模拟仿真,一旦模型构建出现问题,就需要对整个系统进行
音乐情感分析是人工智能的一个研究方向,研究目标是使计算机能够识别音乐的情感。目前音乐情感分析的研究成果主要应用在计算机自动作曲以及基于情感的音乐检索等方面。本文
多核并行系统中的任务调度是根据一定的调度规则和策略,将复杂程序的所有任务按照一定执行时序分配到并行分布的多个内核上,并行处理任务。这个问题是强NP完全的,是最难的组
当今时代随着计算机技术的高速发展,管理信息系统开始普及,各行各业都逐渐建立起自己的管理信息系统。这些系统运行一段时间之后,会形成大量的历史数据,但是这些系统不具备对
今天的Web Service技术早已失去了Web赖以成功的简洁性,它们并不像Web那样工作,并且正日益丧失其原有的优势。其实,Web背后的技术足以支撑强大的远程服务,这种服务可以延伸到
XML (eXtensible Markup Language)是被w3c基于标准的广义标记语言所创建,被用作定义语义标记。在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的
论文介绍了数字水印技术的概念和原理、关系数据库水印技术的概念和原理,探讨了几种关系数据库水印算法,重点提出了一种基于循环冗余检验的关系数据库水印算法。   该算法在
近年来,视频监控技术得到了快速发展,已经从模拟监控时代过渡到数字监控和IP网络监控时代,其应用也广泛深入到各行各业。摄像机云台控制PTZ(Pan Tilt Zoom)是视频监控系统的前端
随着网络技术的高速发展,网络现在已经成为信息传播的重要途径。但是,网络中的大量攻击使网络服务瘫痪,使国家、企业和个人都蒙受巨大的经济损失。因此,网络对防入侵技术的要