Web日志挖掘的相关技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:liwl11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和不断普及,Web日志资源越来越多,如何分析和利用这些海量数据是当前突出的问题。Web日志挖掘是网络信息处理的一种新的技术,也是数据挖掘在Internet领域的一个重要应用。Web日志挖掘是将数据挖掘技术用于Web服务器日志以获取有规律性的知识和用户的访问行为模式,从而改善Web站点的组织结构,提高站点的访问质量,改进网站的性能。数据预处理是Web日志挖掘的重要环节,它决定模式发现和模式分析算法的性能。Web日志预处理主要包括5个环节:数据清理、用户识别、会话识别、路径补充和事务识别。本文对Web日志预处理的各个环节进行了研究,并介绍了各个环节的相关方法。在分析目前会话构造算法的基础上提出了将两种时间窗口结合来构造会话的方法。频繁序列模式挖掘是Web日志挖掘的一个重要研究方向,由于类Apriroi的序列模式挖掘算法要扫描序列数据库多次,且会产生庞大的候选集。本文采用了WAP-Tree结构来存储事务序列,只需扫描数据库两次,由于WAP-Mine算法要递归的产生条件子树,耗费内存空间。针对在WAP-Tree树上的挖掘算法WAP-Mine的不足,提出了基于WAP-Tree的新挖掘算法NWAP-Mine算法,实验证明了算法的有效性。针对现有的序列模式挖掘算法没有考虑网页的权重,提出了基于平均停留时间的兴趣度定义,针对现有网页兴趣度存在的不足,提出了一种改进的网页兴趣度,并将该兴趣度作为权重应用到权重序列模式挖掘算法,找出用户感兴趣的访问路径。通过实验表明将改进后的兴趣度应用于序列模式挖掘能得到更能体现用户访问行为的访问模式。
其他文献
2008年1月10日以来的特大低温雨雪冰冻灾害造成湖南、湖北、江西、贵州、云南等10多个省市不同程度受灾。湖南湘潭市是受灾最严重的地区之一。截至2月18日,湘潭市受灾人口达2
四川达竹矿务局渡市选煤发电厂组建的渡市煤电股份公司,自1998年初运作以来,经过一年多的深化改革,成效十分显著。在过去的一年里,该公司面对激烈的煤炭市场竞争,深入挖掘潜力,努力降低
研究粮食生产规律,做好粮食产量科学预测是制定农业政策的重要依据.本文重点讨论了最小二乘支持向量机(Least Square Support Vector Machines,LS-SVM)的算法,针对小麦生长特点,
延续企业一贯的媒体策略,美的集团在2009年央视黄金资源广告招标会上拔得头筹,以4701万元再次拿下《2009年春节联欢晚会报时》广告,这已经是美的第九次获得这一项目。随后,美
随着计算机技术的发展,越来越多的学者利用计算机相关技术去研究人脸美学,试图通过现有的计算机技术去找到人脸美的“密码”,获取人脸美的量化标准。在人脸美丽评估方面,学者
大华股份每年总会为安博会带来不一样的惊喜,每次的惊喜既在情理之中,又在意料之外。精耕行业十余年,面对各行业应用中的视频数据急速膨胀以及复杂环境下安保与业务需求出现
近年来,随着radio硬件成本的下降和实际应用的需要,Multi—Radio无线传感器网络逐渐走进人们的视野。Multi—Radio无线传感器网络作为一个全新的研究领域,向科研人员提出了大量
针对网络入侵、攻击等各种安全问题,防火墙、入侵检测等安全技术得到了广泛的应用。但是,不同的安全技术侧重解决的安全问题不同,加上攻击技术的日趋成熟,攻击工具和手法的日
学位
随着互联网的广泛普及,传统以位置为中心的通信模型出现诸多不足,严重影响着互联网的进一步发展。针对传统网络在移动性、可扩展性和动态性等方面存在的问题,信息中心网络(Infor