基于关联规则的Web日志挖掘研究与应用

来源 :南京信息工程大学 | 被引量 : 5次 | 上传用户:szh_ty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网是一个庞大的、资源丰富的、全球性分布的信息库,它涉及金融、时事、广告、教育、电子商务等许多信息服务。Web包含了丰富的页面内容、动态的超链接信息,以及海量的用户访问信息,这些都可以成为Web数据挖掘的挖掘对象。如何通过这些Web数据获取用户潜在的兴趣和行为模式,以此来为用户提供个性化、智能化的信息服务已经成为每位网站建设者的迫切需求。Web日志挖掘是一种对用户浏览Web页面时产生的日志数据进行挖掘分析,发现隐含的规律性知识的技术。通过这些规律性知识调整站点内容、改善站点结构、改进站点性能、提高站点的服务质量,同时能够及时捕获站点的异常信息,加强网站的安全性。在如今这个网络用户需求不断膨胀的时代,如何提高Web日志挖掘的挖掘效率和挖掘精度,如何开发出更好的日志挖掘产品都是十分值得深入研究的课题。本文主要对Web日志挖掘中的一些关键技术做了深入细致的分析和研究,并设计实现了一个相对通用的Web日志挖掘系统。该系统可以通过对Web日志数据的挖掘,得出用户频繁访问路径间的关联规则,为网站结构的优化提供指导性建议。全文的核心内容有如下三点:1.深入分析了Web日志挖掘的数据预处理步骤中会话识别传统方法所存在的不足,提出了一种基于决策树归纳的会话识别方法。实验证明该方法可以产生真实度更高的会话。2.分析了数据挖掘关联规则中经典的Apriori算法效率低下的原因,提出一个改进的Tran_Apriori算法,该算法相对于原始Apriori算法具有更高的效率。3.设计实现了一个基于Tran_Apriori算法的Web日志挖掘系统。该系统包括数据收集模块,数据预处理模块,模式挖掘模块和结果表示模块。数据预处理模块中使用了基于决策树归纳的会话识别方法进行会话识别,数据挖掘模块中使用了改进的Tran_Apriori算法。并且对挖掘出的用户频繁访问模式进行模式分析,发现了用户频繁访问路径的关联规则,为网站结构的改善提出了相应的建议。
其他文献
青海省格尔木市黑山地区位于祁漫塔格—都兰成矿带上,周边矿产资源丰富,其北部的尕林格铁矿和野马泉铁矿,其南部的肯德可克钴多金属矿等均达到中大型矿床规模。通过分析黑山
目的探讨2015版心肺复苏术在初中生群体中的推广应用价值。方法2017年3月,分别于我市2所乡镇初级中学随机选取108、109名初中生,分别命名为学校A、学校B;分别于我市2所市区内
在“互联网+”的发展背景下,现代信息技术逐渐融入工业、生活的各个方面,而现代信息技术和农业的融合也成了目前农业发展的新方向,促进我国农业从“劳动力驱动”向“信息化驱
管理类专业作为民办本科高校重要专业之一,构建工作过程系统化课程体系,对于培养管理类高素质专业人才、推动管理类专业标准化发展等而言具有十分重要的现实意义。本文立足于
针对火电机组给水系统测量数据校正问题,提出一种冗余解约束的遗传算法。该算法采用三截尾估计代替常规的最小二乘估计作为数据校正的目标函数,根据系统结构,提取给水系统的
目的 :探讨尿微量白蛋白检测在诊断糖尿病肾病中的应用价值。方法 :选取2016年3月至2017年3月期间北京市房山区第一医院接诊的56例糖尿病肾病患者作为糖尿病肾病组,选取同期
自动化生产线是由工件输送系统和控制系统,将一组自动机构和辅助设备按照工艺顺序联结起来,自动完成产品全部或部分装配过程的生产系统。根据伞具生产过程中,手工生产程度化
那阿钨多金属矿床位于藏东西南三江成矿带之北段,是首个报道的矽卡岩型钨锡矿床,对区域成矿规律研究意义重大。研究表明:矿床受控于层位,主要分布在内、外接触带中,其分布和