嵌入分布信息的Web文档聚类算法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:mytollen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,Web信息资源已涵盖了社会生活的各个方面,网络信息过载问题日益突出,这促使Web挖掘技术迅速发展。本文从Web文档聚类的角度,围绕文档分布信息表示及其相似性度量方法、多角度聚类及核理论在多角度学习中的应用三个方面展开研究,主要工作包括以下几个方面:1.提出一种嵌入分布信息的文档相似性度量方法。现有的Web挖掘技术大部分是基于传统的VSM(Vector Space Model)向量空间,虽然能达到一定的效果,但是忽略了Web文档中其它有用的信息。针对此问题,本文引入了文档中单词的分布信息,提出了新的相似性度量方法。实验结果表明,新相似性度量方法能较好的提高聚类效果。2.提出一种多角度学习算法。该方法在传统多角度Kmeans算法的基础上,采用经典及新的相似性度量,尝试在不同角度上使用不同的学习算法,可更好地反映出数据集中文档的分布特征。实验结果表明,本文提出的多角度学习算法取得了较好的效果。3.提出一种基于核方法的多角度聚类算法。核化理论主要是通过不同核函数在原空间中诱导出不同的距离。本文分别采用多项式核和高斯核,进行了大量实验,实验结果表明,核化后的多角度聚类算法性能得到了明显改善。
其他文献
随着计算机网络技术的迅速发展和普及,信息成为社会发展的重要战略资源,信息安全问题已成为世人关注的社会问题。门限秘密共享是实现信息安全和数据保密的重要手段,先应秘密
本论文的主要工作包括:(1)深入研究行业标准《IP传真数据非实时传送技术要求》,提出传真终端产品的实现方案;(2)通过对该行业标准的分析提出相应的改进方案;(3)采用嵌入式操作uCl
现实世界的数据是海量数据,大型数据库含有冗余特征及噪音,不仅导致数据挖掘的代价高,而且导致规则提取的质量低。针对此问题,通过粗糙集工具对海量数据进行知识约简,可有效
现代无线通信技术的发展,给了我们一种更加方便,快捷获取信息的方式。但是,这种方式依然比不上信息的快速增长。对信息投资和建立相应的网络基础设施,花费巨大。因此,如何降
信息安全是信息学领域的一门重要的新兴学科,它的核心技术是密码学。密钥学中公钥密码扮演着越来越重要的角色,而数字签名技术作为公钥密码理论的一个重要的应用已成为安全电
互联网是当今世界上最大的信息库和传播信息的最主要渠道,但是由于信息数据量巨大、整合程度低等特点,限制了对其蕴涵价值的挖掘,如何高效地采集有价值的网络信息资源,成为当
随着互联网的普及,网络同人们的生活和工作已经密切相关。伴随着互联网用户的增多,同时也出现了越来越多需要解决的相关问题。除了我们众所周知的IP地址匮乏之外,另一个严重
电力系统优化运行是电力系统分析的一个重要课题,它的主要任务是在保证满足用户用电需求(即负荷)及系统安全性的前提下,合理安排发电机组的运行方式,使系统发电的总费用(或所消耗的总燃料耗量)达到最小以取得最好的经济效益。因此,对电力系统优化运行问题的研究可以减少发电成本,减少能源的消耗,对建立节约型社会具有深远的意义。在数学模型上一般可以将电力系统优化运行问题描述为非线性规划问题。对电力系统优化调度运行
作为虚拟现实的关键技术,虚拟场景的渲染,一直是虚拟现实研究工作中的一个重点。在三维游戏,虚拟训练系统,三维地理信息系统等应用中,如何使虚拟场景给予用户更为真实的体验,
当前,网格计算已经成为大规模科学计算和工程计算的主流解决方案。利用网格资源高效执行包含大量计算作业的工作流,对科学计算和工程计算的发展有重要意义。因此,本文将作业