基于Web的数据挖掘技术研究综述

来源 :光盘技术 | 被引量 : 0次 | 上传用户:lishibo13514244774
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。文中将数据挖掘的思想引入WWW信息处理领域来解决Web信息有效获取的问题,讨论了在WWW上进行信息挖掘所采用的技术和策略,最后简要介绍了基于Web的信息挖掘应用前景和方向。
  关键词:数据挖掘;KDW;Web
  中图分类号:TP274+.2文献标识码: A
  
  An Overview of Date Mining Technology Based on Web
  WANG Jing
  (International College; Central South University of Forestry and Technology, Hunan Changsha 410004)
  Key words:overview;date mining technology;Web
  
  数据库中的知识发现KDD( Knowledge Discovery in Databases )是指从数据库中发现潜在的有意义的未知的关系模式和趋势,并以易被理解的方式表示出来。但传统KDD 技术所涉及的主要是结构化的数据库,而网上资源却没有统一的管理和结构,数据往往是经常变动和不规则的,因此人们需要比信息检索层次更高的新技术,我们称之为Web中的知识发现KDW(Knowledge Discovery in Web),它是为了揭示文档中隐含的知识,KDW作为KDD 的一个新主题是一个很有意义的研究方向。
  
  1 基于Web的数据挖掘
  
  1.1基于Web的数据挖掘任务
  Web信息的多样性决定了Web挖掘任务的多样性。总的来说Web挖掘的对象可分为内容挖掘、访问信息挖掘和结构挖掘。
  1.2基于Web内容的数据挖掘
  基于Web内容的数据挖掘是指通过对网络信息内容的准确定位,揭示众多信息之间的关系,挖掘出隐藏在网络数据或文档中的知识内容。内容挖掘是Web数据挖掘中最常用也是最重要的一种。
  用户面对整个Internet的海量信息时往往感到很难找到他真正所需要的有用信息。搜索引擎是当前广泛被采用的一项技术,它为用户在浩瀚的信息海洋中的寻觅提供了一个快捷的工具。但是,搜索引擎,即便是象Yahoo、InfoSeek,Lycos这样的著名的搜索引擎,仍不能完美地解决问题。用户只能在internet上简单地通过搜索引擎进行搜索,使用最复杂的也不过是布尔查询而已。而不经过专门培训的普通用户是很难构造出高质量、无查询歧义的布尔查询的。挖掘引擎的出现超越了搜索技术,并正在将搜索技术推向一个新层次。搜索引擎和挖掘引擎是互补的,有一定的相同之处。它们处理的对象都是字串和文本这一点是相同的。但是,搜索引擎提供的功能是单一的,主要是查找定位符合用户查询需要的文献的位置,因此它需要用户提供由一个或若干关键字串组成的查询表达式。支持这一过程的核心技术是数据库和索引,而Agent技术为它的智能化提供了有力的帮助。尽管挖掘引擎也提供定位文献位置的功能,但这不是它的主要功能。好的挖掘引擎自动地提取相关文献之间的有价值的关系知识,并且将这些知识以可视的、动态改变的方式反馈给用户。支持这一过程的核心技术是特征提取、分类、聚类和关联规则发现、知识评价等。搜索引擎在一定程度上可以被认为是挖掘引擎的预先处理。
  1.3基于Web结构的数据挖掘
  基于Web结构的数据挖掘是对Web页面超链关系,文档内部结构,文档URL中的目录路径结构等的挖掘。对于基于Web结构的数据挖掘而言,一个重要的问题是获得有关不同网页间相似度及关联度的信息有助于用户找到相关主题的权威站点。在Web中有两种特殊且相互关联的网页:权威网页和引导网页,权威网页往往对于某一主题包含比较多的用户所需要的信息,常常有许多指向它的链接。引导网页虽然不一定包含很多某个特定主题的内容,但是它包含许多指向这个主题的网页的链接。HITS(Hyperlink Induced Topic Search)算法就是这样一个通过分析权威页面和引导页面进行Web结构挖掘的算法。使用HITS算法对一组Web页面进行分析,可以得到这组页面中的权威页面和引导页面。
  1.4基于Web访问的数据挖掘
  基于Web访问的数据挖掘是指对用户访问Web时,服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。通过挖掘一段时间群体用户对一个Web站点访问日志,可以得到群体用户的访问路径模式。这种访问模式反映设计者所设计的Web页面关联的优劣,根据这种数据挖掘的结果调整网站的结构和内容,可以很有效地改善网站服务。
  
  2 当前基于Web数据挖掘的主要研究方向和应用前景
  
  目前国内外基于Web数据挖掘的研究主要是以知识发现的任务描述、知识评价与知识呈现为主线,以基于各种理论的有效知识发现算法研究为中心,以及更加广泛的应用研究为主要特点。
  (1)数字地球
  所谓数字地球技术是指“Web+GIS+KDD”的集成,使人们从海量空间数据库提取有用的知识,为决策支持提供重要依据。主要应用于重点地区灾害实时监测、评估、预警和决策支持、各种传感器和直接与卫星通信的探测基元研制、海量空间数据的智能化获取、网上地理信息系统(Web GIS)、应用模型服务器、元数据库管理、虚拟建模与仿真和抗灾救灾的决策支持等系统。
  (2)金融和商业领域
  在金融与商业领域中,基于Web的信息挖掘技术的应用表现为范围上的延拓和层次上的深化以及多种技术方法的整合。 如:利用文本挖掘,可以从Internet上的成千上万的与金融相关的Web网页中获取全球金融市场的实时数据、与金融市场相关的市场、宏观经济环境、政策和法规等消息、进行金融分析报告等;利用数据挖掘技术对分布于全球的市场消息和信息的处理来预测全球市场的主要股票指数,并对全球主要外汇交易市场货币交易率的未来走势进行预测和决策分析。
其他文献
摘 要:文章就本人的教学实践经验谈VB教学中存在的一些问题,针对这些问题提出了教学改革的一些想法,从而将VB教学改革推向更深的层次和更高的水平。  关键词:Visual Basic;程序设计;教学改革  中图分类号:G434文献标识码:A    Discussion on Visual Basic Teaching Reforms  WEI Lin  (Huanghuai University,H
期刊
摘 要:电子计算机技术的发展与应用,特别是CAI课件(计算机辅助教学)的开发、研究和应用,引起教育技术的第四次革命。CAI课件在教学中的合理应用,对于提高学生的学习兴趣,激励学生主动参与学习的全过程,培养数学能力,发展智力以及突出教材的重难点,提高课堂教学效率等方面都有积极作用。  关键词:CAI课件;课堂教学;优化  中图分类号:G434 文献标识码:A    Optimization of C
期刊
摘 要:多媒体计算机辅助教学发展到今天,已成为现代教学教育中的新热点。只有了解它的特点及其在教学中的误区与策略,才能自觉地在教学中符合规律地加以利用,更好地促进教育的进一步改进。  关键词:CAI课件;英语教学;误区;策略  中图分类号:G434文献标识码:A    Misunderstandings and Strategies of English CAI Courseware Teachin
期刊
摘 要:基于W78E58单片机和FPGA模块,利用MAX262芯片,实现了具有程控滤波器,包括信号幅频特性测试、滤波参数设置及显示输出等功能的数字滤波器设计。  关键词:FPGA;W78E58;程控滤波器;MAX262  中图分类号:TP368.1 文献标识码: A    Design of the Program-controlled Filter Based on W78E58 Microco
期刊
摘 要:机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域,它是一个典型的多智能体系统。在足球机器人比赛中,由于攻防转换速度较快,各个机器人要不断地进行角色转化。采用Q学习方法研究了机器人足球比赛中的足球机器人的角色转换问题,实验结果证明了该方法的有效性。  关键词:多智能体;q学习;角色分配;   中图分类号:TP242.6 文献标识码:A    Application of Robot
期刊
摘要 代表世界管理学学术最高水平的期刊《管理学会学报》近来推出了一系列关于管理学学术研究的主编建议。本文对其中最后三篇文章做关于方法、结果、讨论及定性研究的若干差异的综述,方法和结果部分应当做到完整、清晰、可信,应当提高对于讨论的重视,其既是结束也是新的开始,相比定量研究,定性研究又有几个突出的差异之处,着重表现在开头结尾、分析方法以及讲故事上。这些主编建议为管理研究提供了很好的学习素材,也为研究
期刊
摘 要:CPU产品,按市场不同档次的需求被划分成很多条产品线,形成了纷繁复杂的产品格局。这为电脑用户如何认知和选购合适自己需求的CPU产品带来了很大的障碍。为了理清这些产品间的区别,本文依据产品发布时间的先后和产品市场定位的高低划分,分别介绍了Intel和AMD这两大CPU厂商的产品,是初识电脑的用户认识CPU产品的指南,也是电脑行家手头的一部简明CPU编年史。  关键词:双核;CPU;多核CPU
期刊
“Intel未来教育”倡导的是“问题化教学”。在教师的问题设计下,学生采用探究问题的学习方式主动学习,在掌握知识内容的同时,让学生体验、理解和应用探究问题的方法,培养学生的创新精神和实践能力。在教学过程中,我尝试将“Intel未来教育”和历史课的探究性学习结合在一起,并作了进一步探索。  1.“Intel未来教育”体现了研究性学习的问题意识  现行教材内容可读性强,教师可以组织学生自我解读,自主学
期刊
当前,新一轮的课改如潮涌来,新课程理念互动、合作、探究也正为许多教育工作者所践行,在课改的过程中,计算机辅助教学CAI作为一种先进模式,是教学改革的一个重要突破口。那么,思想政治课如何借助CAI,将新课程中的教育教学思想与现代教育技术整合起来,优化教学结构,提高教学实效,让课堂既充盈着现代教育技术的气息,又避免陷入应用的误区呢?    一、 政治课教学中应用CAI的必要性和重要性    中学思想政
期刊
摘 要:在如今各类存储系统中,RAID已经成为不可或缺的重要组成部分,为保护数据发挥重要作用。本文详细分析了目前5种不同RAID级别的技术特点,并介绍了它们的各自优缺点和应用特点。  关键字:RAID;磁盘;数据存储  中图分类号:TP309.3 文献标识码:A    TheApplication and Analysis of the RAID Technology  FAN Zhi-ping 
期刊