一种Web日志挖掘数据预处理方法

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户：bylee

【摘要】

：

自从WWW问世以来,其信息容量飞速增长.由于Internet是一个开放性、动态性和异构性的全球分布式网络,信息资源分布非常分散,没有统一的管理机构,从而导致了信息获取的困难.

【作者】

：

王军[1]宋宝燕[1]于戈[2]

【机构】

：

辽宁大学信息科学与技术学院,沈阳,110036

【出处】

：

第二十三届中国数据库学术会议(NDBC2006)

【发表日期】

：

2006年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自从WWW问世以来,其信息容量飞速增长.由于Internet是一个开放性、动态性和异构性的全球分布式网络,信息资源分布非常分散,没有统一的管理机构,从而导致了信息获取的困难. 解决这个问题的一个有效途径就是将数据挖掘技术和Web技术结合起来,进行Web上的数据挖掘.Web挖掘可以定义为从与Web相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.Web挖掘可以分为三类:Web内容挖掘(Web contentmining)、Web结构挖掘(Web structure mining)和Web访问模式挖掘(Web usage mining).其中,Web访问模式挖掘中Web日志挖掘是研究的焦点.通过挖掘Web日志记录来发现用户访问Web页面的模式及行为,可以实现用户聚类、页面聚类和发现频繁访问路径,进而改善网站结构设计和为用户提供个性化服务. 随着Internet的发展,网络资源更加丰富,Web日志挖掘已经成为一项重要的研究课题.本文在前人的研究基础上提出了一种基于网站结构的数据预处理方法.采用本文提出的方法进行数据预处理的结果比传统的方法有较大的优越性,更加真实地反映了用户的访问情景,因而能够较好地为Web日志挖掘提供有效数据.

其他文献

简析网络安全技术

计算机网络的发展加快了企业和社会的信息化程度.它同时也带来了许多网络安全问题.本文全面分析了计算机网络中存在的不安全因素,并针对不安全因素提出了相应的安全策略,以期

会议

计算机网络不安全因素信息化程度安全运行安全问题安全策略多网络企业

Web使用信息挖掘中的行为发现研究

Web使用信息挖掘就是利用数据挖掘技术从网络数据中发现用户的使用模式,以便于更好地了解网络用户的浏览行为和给用户提供更好的服务.本文主要研究了Web使用信息挖掘中的数据

会议

E-Science环境下基于特权委托授权模型研究与实现

科学技术研究工作中存在大量临时、瞬时、可变的资源授权情况,目前有针对性的授权解决方案仍是一个热点.本文提出了基于特权委托的动态授权模型,并通过对XACML规范的扩展实现

会议

环境需求特权授权模型细粒度访问控制技术研究工作资源授权解决方案基本模式应用实践扩展可变科学价值规范安全

一种基于密度单元覆盖的聚类数据流算法

近年来,一种新型数据形式数据流得到了广泛的应用和研究,数据流是持续快速到达的数据序列,数据量巨大,并且数据分布具有时变性.聚类是数据流处理的一个中心问题. 本文研究

会议

一种多维数据可视化方法:旋转极坐标系法

随着数据库系统的发展,数据的多维性已经广泛地存在于各种领域.由于人类没有对高维数据的空间猜想能力,不能对其产生直观的认识,因此可视化多维数据一般是寻找一种方法把多维

会议

基于评分的重要新闻事件查找

新闻数据作为一种非常重要的数据对象,在网络和期刊报纸中广泛存在,对新闻数据的挖掘尤其是重要新闻事件的查找在日常生活中有非常广泛的应用.对于查找重要新闻事件,我们一般

会议

一个加权频繁项目集的支持度下界

关联规则挖掘是数据挖掘中很重要的研究方向之一,传统的关联规则挖掘方法主要基于支持度和可信度阈值,这些方法在挖掘过程中总是假设数据库中的每个项目具有相同的地位和作用

会议

基于Rough理论和遗传算法的信息系统决策分析

Rough集理论利用近似概念对信息系统的数据进行分类以获取信息表中的知识,遗传算法对问题求解具有其独特的优点,将两者结合起来利用两者优点,通过一个信息表实例计算,示例了

会议

理论遗传算法信息系统决策规则实例计算信息表信息处理问题求解近似概念计算机知识数据获取分类

基于蚁群聚类算法的中文本体学习

随着对语义Web研究的深入,需要构建越来越多的领域本体.目前大家在公认的构建领域本体的过程中,都需要领域专家的参与和协作,由知识工程师根据该领域的结构,将相关词汇和术语

会议

基于XML的宏观经济数据的挖掘与分析

传统的宏观经济学是在数学和统计的基础上发展起来的,已取得一些成绩.但以往的宏观经济管理多采用常规方法,以单纯的经验判断为基础,缺乏系统的观点,忽视精密的数量计算,管理

会议

一种Web日志挖掘数据预处理方法

与本文相关的学术论文