一种基于Web日志挖掘聚类算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:eimayao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的来临与网络商务的迅速发展,人们的网络商务行为变得越来越频繁,数据挖掘已经发展成为网络中的Web数据挖掘,Web数据挖掘的应运而生标志着人类商业的巨大变革。一方面,Web网服务商不断设法获取用户浏览的爱好兴趣,以便将更有针对性的服务提供给用户。另一方面,越来越多的人关注起如何快速且有效地从海量网络信息中发现有价值的、潜在的信息。但是,因为Web是无结构的动态的,而且Web页面复杂度远远比文本文档要大的多。Web日志挖掘是运用Web技术和传统数据挖掘相结合,对服务器日志进行分析处理和挖掘,从大量的数据信息中发现有规律性的内容,解决以上提出的各种问题。Web应用挖掘也称为Web日志挖掘(Web Log Mining),是Web挖掘中的一个很重要的方面,它有着很多的经典算法,其中算法Hamming距离聚类算法取得了一定的成效,但是还存在一些不足。本文介绍了数据挖掘与Web数据挖掘及其分类和方法,然后从分析Hamming距离聚类算法的不足入手,对传统的Web日志挖掘Hamming距离聚类算法进行改进,其一是把代表用户兴趣度的相应数据作为权值应用到算法过程改进当中,从而提高了聚类算法结果的准确性,其二是在程序调用数据时,对其访问的数据库中的数据做相应优化,以缩短计算过程中数据重复调用、重复计算所耗费的大量时间,并列出简单例子中的计算过程合理分析,通过理论与实验证明了算法运行结果,最后验证了改进后的Hamming距离聚类算法合理性和有效性。
其他文献
与传统的视频监控技术相比,智能视频监控系统可以独立完成视频内容的分析工作,并对分析结果做出相应处理。智能视频监控技术涉及计算机视觉、模式识别、视频图像处理和人工智能
以视频为主的多媒体应用一直被认为是互联网的“杀手级”应用,绝大部分的互联网流量被视频内容所占据。与此同时,多媒体内容和用户的爆炸式增长也对Internet提出了更高的要求。
如今,微博平台在实时传播信息方面发挥了重要作用。然而,由于其具有规模大、实时性强和数据非结构化的特点,常见的数据挖掘方法在处理它们时不再适用。为了克服传统微博事件
随着信息科技技术和多媒体技术的飞速发展,信息技术已融入到人们生活的每一个角落,并逐渐改变人们的生产生活方式。互联网为人们带来便利的同时,也面临着严峻的网络安全问题
人脸识别系统以其直接、方便、友好的特点在军事、商业、安全、信息等领域的得到广泛的应用。经过多年的研究发展,自动人脸识别技术取得了长足的进步。但是,在人脸识别的过程中
软件授权是保护软件市场公平有序发展的重要技术手段。软件供应商通过软件授权来控制最终用户对软件的使用权限。由于软件产品和授权设计方案的多样性,开发人员经常重复为不
无线传感网络由大量部署在监测区域内具有感知、数据处理、通信功能的微型传感器节点组成。无线传感网络在工业、农业、军事、医疗、环境保护等方面有着广泛的运用前景。覆盖
信息技术的飞速发展,加快了医疗卫生体系现代化、信息化的进程。大量信息系统运行在各类各级医疗卫生系统平台上。因此,如何保证这些信息系统的正常运行和数据信息的安全就成为
随着人机交互技术(Human Computer Interaction,HCI)的发展,以及人们对智能友好人机交互的追求,手势作为日常生活中使用广泛的交流方式,具有自然直观、易于学习等特点,必然被
普通打印机的USB接口为USB从口,打印机只能作为USB从设备,接收PC机通过USB接口传来的数据,无法实现无PC机USB接口直接打印,给用户的使用带来不便。本文主要研究打印机的嵌入式计