Web日志挖掘相关技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:cherish_zww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet在流量、规模和复杂度等方面的飞速增长,网络正在成为人们进行信息交流和信息处理的有效平台,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自己所需信息,成了困扰网络用户的一大难题。 为了解决上述问题,Web挖掘技术应运而生,其中,Web日志挖掘是Web数据挖掘研究领域中一个重要的方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用。本文深入探讨了数据预处理的主要任务,提出了一种新的Web挖掘预处理方案。该方案采用用户访问页面的时间和用户的最低访问时间,界定该页面是否为用户感兴趣的页面,并删除用户不感兴趣的页面和链接页面,寻找一组能够有效压缩搜寻路径(降低搜寻费用)的超链接,重新定义用户的访问事务。 数据经过预处理后,就可以根据具体的需求来选择诸如聚类、分类、关联规则等数据挖掘技术。本文研究分析了聚类技术,以及当前Web聚类的内容和方法,通过聚类用户访问的Web事务,发现相似的用户群。由于经过预处理后,数据量还是相当大,作者分析研究了基于目标函数的聚类方法后,发现该方法对初始值敏感、易陷入局部最优解,且迭代次数多,为此,提出了一种改进聚类方法。最后,结合一个具体的实例,对算法的有效性进行了验证。
其他文献
传统的数据中心使用多个x86架构的大型服务器构建计算集群,这样的集群往往拥有成千上万瓦的功耗,电力成本在集群设施总体构建成本中所占的比重越来越大。未来可扩展超级计算
随着通信技术、嵌入式计算技术和传感器技术的飞速发展,无线传感器网络WSN(Wireless Sensor Networks)引起了人们的极大关注。WSN主要任务是监测环境。它的事件突发性和多对一
随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加。网络蠕虫已经成为计算机使用者遇到的最普遍问题。它的传播不仅可以占用被感染主机的大部分系统
本文通过对现行比较有代表性的q-composite方案进行分析,选定了提高其门限值的改良思路,创造性的在q-composite方案中引入了多项式方法,达到了大幅度提高其门限值的目的,从而
随着人们对高性能计算和资源分布共享需求的增加,传统的高性能计算模式和计算共享模式己经不能满足人们的需要,人们期望能够像访问电力资源一样随时随地的获取需要的计算和存
在图像识别系统中,为了抽取更高层次的信息用于进一步的分析和检测,常需从图像中寻找具体的物体对象或者感兴趣的区域。矩形作为最常见的人工图形之一,对它的检测有着广泛应用。
随着以微电子技术为代表的信息产业的飞速发展,多媒体、计算机网络等进入寻常百姓家,数字化已深入人心。以Internet为代表的网络化进程席卷全球,加之多媒体技术和数字传输的迅猛
随着高校教育的发展,计算机技术在各学科各专业中的应用不断深化,学生上机的需求越来越多,使高校内公用机房的规模不断扩大;同时计算机更新速度快、软硬件配置多样化,机房网
随着数字存储技术的发展,数字图像和视频图书馆等应用使得基于内容的检索成为研究热点,而从数字图像中提取文字的技术是基于内容检索的关键。 从图像中提取文字的过程主要有
存储级内存Storage Class Memory既具有内存的低延迟和随机存取的特性,又具有类似磁盘、固态盘等存储设备的可持久存储特性,被认为是未来计算机存储发展的重要趋势而逐渐被越