基于关联规则的Web日志挖掘研究与应用

来源 :南京信息工程大学 | 被引量 : 5次 | 上传用户：szh_ty

【摘要】

：

因特网是一个庞大的、资源丰富的、全球性分布的信息库,它涉及金融、时事、广告、教育、电子商务等许多信息服务。Web包含了丰富的页面内容、动态的超链接信息,以及海量的用

【作者】

：

陈辰

【出处】

：

南京信息工程大学

【发表日期】

：

2014年01期

【关键词】

：

Web日志挖掘关联规则 Apriori算法会话识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网是一个庞大的、资源丰富的、全球性分布的信息库,它涉及金融、时事、广告、教育、电子商务等许多信息服务。Web包含了丰富的页面内容、动态的超链接信息,以及海量的用户访问信息,这些都可以成为Web数据挖掘的挖掘对象。如何通过这些Web数据获取用户潜在的兴趣和行为模式,以此来为用户提供个性化、智能化的信息服务已经成为每位网站建设者的迫切需求。Web日志挖掘是一种对用户浏览Web页面时产生的日志数据进行挖掘分析,发现隐含的规律性知识的技术。通过这些规律性知识调整站点内容、改善站点结构、改进站点性能、提高站点的服务质量,同时能够及时捕获站点的异常信息,加强网站的安全性。在如今这个网络用户需求不断膨胀的时代,如何提高Web日志挖掘的挖掘效率和挖掘精度,如何开发出更好的日志挖掘产品都是十分值得深入研究的课题。本文主要对Web日志挖掘中的一些关键技术做了深入细致的分析和研究,并设计实现了一个相对通用的Web日志挖掘系统。该系统可以通过对Web日志数据的挖掘,得出用户频繁访问路径间的关联规则,为网站结构的优化提供指导性建议。全文的核心内容有如下三点：1.深入分析了Web日志挖掘的数据预处理步骤中会话识别传统方法所存在的不足,提出了一种基于决策树归纳的会话识别方法。实验证明该方法可以产生真实度更高的会话。2.分析了数据挖掘关联规则中经典的Apriori算法效率低下的原因,提出一个改进的Tran_Apriori算法,该算法相对于原始Apriori算法具有更高的效率。3.设计实现了一个基于Tran_Apriori算法的Web日志挖掘系统。该系统包括数据收集模块,数据预处理模块,模式挖掘模块和结果表示模块。数据预处理模块中使用了基于决策树归纳的会话识别方法进行会话识别,数据挖掘模块中使用了改进的Tran_Apriori算法。并且对挖掘出的用户频繁访问模式进行模式分析,发现了用户频繁访问路径的关联规则,为网站结构的改善提出了相应的建议。

其他文献

青海省格尔木市黑山地区矽卡岩型矿床地质特征及成矿远景分析

青海省格尔木市黑山地区位于祁漫塔格—都兰成矿带上,周边矿产资源丰富,其北部的尕林格铁矿和野马泉铁矿,其南部的肯德可克钴多金属矿等均达到中大型矿床规模。通过分析黑山

期刊

祁漫塔格矽卡岩型透闪透辉矽卡岩多金属矿Qimantagskarn typetremolite and diopside skarnpolymetalli

2015版心肺复苏术在初中生群体中的推广应用研究

目的探讨2015版心肺复苏术在初中生群体中的推广应用价值。方法2017年3月,分别于我市2所乡镇初级中学随机选取108、109名初中生,分别命名为学校A、学校B;分别于我市2所市区内

期刊

心肺复苏初中生心脏骤停按压频率按压深度Cardiopulmonary resuscitationJunior middle school studen

“互联网+农机”融合促农业现代化发展

在“互联网+”的发展背景下,现代信息技术逐渐融入工业、生活的各个方面,而现代信息技术和农业的融合也成了目前农业发展的新方向,促进我国农业从“劳动力驱动”向“信息化驱

期刊

互联网+农业发展信息技术深度融合

管理类专业工作过程系统化课程体系的构建

管理类专业作为民办本科高校重要专业之一,构建工作过程系统化课程体系,对于培养管理类高素质专业人才、推动管理类专业标准化发展等而言具有十分重要的现实意义。本文立足于

期刊

管理类专业工作过程系统化课程体系构建management majorsystematic work processcourse systemconstr

一种基于遗传算法的热工数据校正方法

针对火电机组给水系统测量数据校正问题,提出一种冗余解约束的遗传算法。该算法采用三截尾估计代替常规的最小二乘估计作为数据校正的目标函数,根据系统结构,提取给水系统的

期刊

给水系统数据校正三截尾估计数据检测遗传算法约束处理

尿微量白蛋白检测在诊断糖尿病肾病中的应用价值

目的 :探讨尿微量白蛋白检测在诊断糖尿病肾病中的应用价值。方法 :选取2016年3月至2017年3月期间北京市房山区第一医院接诊的56例糖尿病肾病患者作为糖尿病肾病组,选取同期

期刊

尿微量白蛋白糖尿病肾病血尿素氮血肌酐

雨伞关键工序自动化生产线的研制

自动化生产线是由工件输送系统和控制系统,将一组自动机构和辅助设备按照工艺顺序联结起来,自动完成产品全部或部分装配过程的生产系统。根据伞具生产过程中,手工生产程度化

学位

雨伞自动化生产线结构设计静力学分析PLC控制系统

西藏察隅县那阿矽卡岩型钨多金属矿床成矿规律分析

那阿钨多金属矿床位于藏东西南三江成矿带之北段,是首个报道的矽卡岩型钨锡矿床,对区域成矿规律研究意义重大。研究表明:矿床受控于层位,主要分布在内、外接触带中,其分布和

期刊

矽卡岩型钨多金属矿成矿规律skarn typeW-polymetallic depositmetallogetic regularity

基于关联规则的Web日志挖掘研究与应用

其他学术论文