Web日志挖掘原型系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ll19870627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘旨在对Web服务器上的用户访问日志数据使用数据挖掘技术,发掘隐藏在日志数据背后的规律和模式,从大量的Web日志信息中提取出人们需要的有用知识,进而改善Web站点结构,提高站点的服务质量,改进站点性能,向用户提供个性化的服务。本文在分析国内外研究现状和发展趋势的基础上重点研究了Web日志挖掘中的用户聚类、关联规则算法,频繁访问路径挖掘算法,在前人的基础上对算法进行了一些改进,并在VC6.0平台上设计和实现了一个Web日志挖掘原型系统。在用户聚类方面,以用户的页面访问时间作为兴趣度量的标准,利用模糊聚类的方法对UserID-URL关联矩阵进行聚类。在关联规则方面,提出了以扫描项数据库的方法来代替扫描事务数据库的方法,并针对Web日志的特点删除了首页及二级页面项,显著的提高了算法的运行效率,快速的找到了频繁访问页面集合。在频繁访问路径挖掘方面,在MFR的基础上,实现了类似于Apirori的Sim_Apriori算法,并提出了基于多叉树的M_tree挖掘算法,有效的提高了用户频繁访问路径的挖掘速度。最后总结了本文的研究成果,并提出将来进一步的研究工作。
其他文献
访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。查询接口是Deep Web数据库的唯一访问入口,通过向Deep W
在色彩管理中,实现图像在不同设备环境的一致再现,必须考虑环境光照的影响,克服环境光照对图像带来的颜色偏移。但目前尚无通用算法可用于各种自然图像,必须针对不同的场景需要选
新一代静止图像压缩标准JPEG2000采用基于上下文自适应的二进制算术编码进行熵编码。算术编码具有卓越的编码性能,在大部分情况下其平均码长都能接近信源熵。然而,它的计算复杂
随着Internet应用的急剧增长,我们需要依靠各种技术手段对网络的性能进行全面的测量和评估,以保证网络服务的稳定性和可持续性,因此,网络测量技术受到越来越多的关注,相关研究已经
运动模糊图像的盲复原算法是图像复原领域一个重要的研究方向。本文采用变分方法来求解单幅运动模糊图像的清晰图像和模糊核矩阵。变分能量方程包含数据项和规则项,数据项可
身份认证技术是信息系统安全的第一道屏障,它是信息安全时代备受关注的一个研究领域。实现身份认证的方法很多,但传统的、单一的认证手段已不适应现今网络系统需求,因此迫切需要
国家“十一五”预研项目“嵌入式半实物仿真测试平台”的研究目的是构建一个评测各种航天软件的通用性测试平台。航天软件测试工作通常在半实物仿真平台下进行,具有较高的实时
组合服务是开放式环境中实现跨组织敏捷应用系统集成的重要技术。目前应用组合服务构建的系统均是采用集中式执行模式。因为集中式执行模式系统在消息传输效率、执行效率、系
自动尿沉渣分类仪器对于临床尿检具有重要的意义。它解决了长期以来传统的通过人工对尿沉渣涂片进行目镜检查的操作过程中存在的受技术水平,视觉上的偏差影响,工作效率低,无
随着数字媒体技术和网络技术的发展与普及,数字视频的生成、传播以及应用变得越来越简单。数字视频的快速增长在为人们提供方便快捷的同时,也带来了各种各样的问题,如通过网络传