基于web挖掘的空间数据挖掘技术研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:xuezhenqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]空间数据挖掘技术(Spatial Data Mining)是建立在空间数据库的基础上,通过使用各种机器学习技术,从海量空间数据中挖掘出未知的有用的规律和知识,从而提供支持决策的依据。在现在已建立的GIS空间数据库中,大量的可分析、分类的知识,如空间位置分布规律、空间关联规则、形态特征区分规则等都隐藏在空间数据中需要被挖掘才能被发现。因此,空间数据挖掘技术就显得尤为重要。因而对于空间数据挖掘技术,特别是基于Web挖掘部分的技术进行研究。
  [关键词]空间数据挖掘 地理信息系统 数据挖掘 知识发现
  中图分类号:TP319∶P208 文献标识码:A 文章编号:1671-7597(2008)1120036-01
  
  一、知识发现与数据挖掘技术概述
  
  我们把从庞大的数据库集或者数据库中提炼有用信息的科学成为数据挖掘。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。这些学科都致力于数据分析的某个方面,因此它们有很多共性。数据挖掘就是建立在它们之上对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据[1]。不过并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
  
  二、空间数据挖掘技术由来
  
  空间数据的采集、存储和处理等现代技术设备的迅速发展,使得空间数据的复杂性和数据急剧膨胀,远远超出了人们的破译能力。空间数据库是空间数据以其相关非空间数据的集合,是经验和教训的积累,无异于是一个巨大的宝藏。当空间数据库中的数据积累到一定程度的时,必然会反映出某些为人所感兴趣的规律。这些知识型规律隐含在数据深层,一般难以根据常规的空间技术方法获得,需要利用新的理论技术发现并为人所用[2]。
  
  三、Web空间数据挖掘的技术和发展
  
  空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。
  (一)空间分析方法
  利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。
  (二)统计分析方法
  统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
  (三)归纳学习方法
  归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。
  (四)聚类与分类方法
  聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean,Kmeriod,ISO DATA等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。
  (五)探测性的数据分析方法
  李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。
  (六)神经网络方法
  即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。
  (七)决策树方法
  即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。
  (八)基于云理论的方法。
  云理论是一种分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。基于云理论的空间数据挖掘方法把定性分析和定量计算结合起来,处理空间对象中融随机性和模糊性为一体的不确定性属性;可用于空间关联规则的挖掘、空间数据库的不确定性查询等。
  
  四、结语
  
  空间数据挖掘是GIS科学的一个新兴领域,尽管目前只是取得了一定的初步理论研究成果,但是仍然有大量的理论与方法需要去深入研究,特别是在利用已有的理论知识来开发空间数据挖掘的产品方面需要更多的研究人员投入到其中去。
  
  参考文献:
  [1]David Hand, Heikki Mannila, Padhraic Smyth: Principles of Data Mining, 机械工业出版社.2003.
  [2]李德仁、王树良、李德毅,空间数据挖掘理论与应用.科学出版社.2006.
其他文献
[摘要]探讨头孢哌酮/舒巴坦联合阿奇霉素在小儿支气管肺炎中的疗效。方法:选择50例患儿随机分为治疗组(头孢哌酮/舒巴坦联合阿奇霉素)和对照组35例,进行治疗对比观察。结果:治疗组退热时间、咳喘消失时间、肺部罗音消失时间、X线检查恢复正常时间、平均住院天数等指标均明显优于对照组(P<0.01)。结论:头孢哌酮/舒巴坦联合阿奇霉素治疗小儿支气管肺炎疗效显著。  [关键词]头孢哌酮/舒巴坦 联合阿奇霉素
期刊
[摘要]介绍非接触式IC卡智能多媒体教学设备安全管理系统中的读写器软、硬件设计及服务器端软件设计。  [关键词]RFIC 多媒体教学设备安全管理系统 RS485 以太网  中图分类号:TP311. 51文献标识码:A 文章编号:1671-7597(2008)1120007-01    RF-IC卡多媒体教学设备管理系统通过采用先进的网络技术,使整套系统的操作和自身资源的使用不再受时间和地域的限制。
期刊
[摘要]在金融危机冲击全球的大背景下,人们都在谋求一条低成本高效益的发展之路。在IT产品充斥着每个角落的时代,以节能、高效为核心的“绿色”理念成为了IT产品的创新点。分析绿色IT产生的必要性以及从不同的方面帮助IT实现绿化。  [关键词]绿色IT IT产品 IT技术 绿色采购  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0520189-01    一、引言    如今
期刊
[摘要]土地测绘技术广泛应用于国民经济的各个领域和部门,为各项建设和社会发展提供前期准备和测绘保障,是最基础的科学技术事业,就土地测绘技术从模拟化到自动化的变迁做了简要论述并着重介绍GPS技术在土地测绘中的应用。  [关键词]土地测绘 技术变迁 GPS应用  中图分类号:P2 文献标识码:A 文章编号:1671-7597(2008)1120012-01    测绘是国民经济和社会发展的一项前期性、
期刊
[摘要]阐述焊膏的成分、特性、焊膏的选用、使用及存储方法。介绍表面贴装技术的手工操作方法及其特点,提供表面贴装技术手工操作设备的配置及使用方法。  [关键词]焊膏 SMT 手工焊接  中图分类号:TN6 文献标识码:A 文章编号:1671-7597(2008)1120017-01    SMT翻译成中文是表面贴装技术。随着电子产品的飞速发展,表面组装技术化逐渐取代了传统插装工艺。焊膏成为SMT中最
期刊
[摘要]即兴伴奏是每一名中小学校音乐教师的“打门锤”,对于音乐教师来说不论你在学校学的是声乐专业还是器乐专业,只要你选择当了一名普通中小学校的音乐教师如果不会弹奏即兴伴奏或者即兴伴奏弹奏得很糟糕,其实这是不算合格的音乐教师的。在师范性质的音乐学院钢琴是基础课,是一门必修课,它的目的就是让我们的未来的音乐教师能用钢琴(或者电子琴)来上音乐课。钢琴不仅能用来上视唱练耳、乐理课,而且能为学生在唱歌的时候
期刊
[摘要]通过对GPS车载导航系统引发的交通事故的分析,联系日本和欧盟的相关设计导则,对制定符合我国国情的设计导则提出建议。  [关键词]GPS车载导航系统 安全性 设计导则  中图分类号:TN96 文献标识码:A 文章编号:1671-7597(2008)1120013-01    近年来我国车载导航系统的发展极为迅猛,但针对导航系统安全性的相关法规尚未出台,市场现有产品种类繁多,但安全性难以保障。
期刊
[摘要]设计了全面的动模试验,模拟线路一侧保护是LFP-902A,另一侧是CSL-l01A,在各种工况下考验了两套装置的高频保护动作情况。  [关键词]旁路保护 高频保护 非全相运行 动模试验  中图分类号:TM7 文献标识码:A 文章编号:1671-7597(2008)1120008-01    目前在成都地区220kV及以上电压等级主网系统中,都普遍的配置了高频保护,并且所有重要220kV线路
期刊
[摘要]电阻电容在线测试实现电阻电容测量的自动化,拓宽测试的量程范围,提高测量的精度。给出电阻电容在线测试的硬件和软件设计。   [关键词]单片机 电阻 电容 在线测试 LCD  中图分类号:TM93 文献标识码:A 文章编号:1671-7597(2008)1120021-01    对电子元器件的检测可分为在线检测合肥在线检测两种。在线检测是用万用表在电路板上直接对元件进行检测。在电路板上,电阻
期刊
[摘要]充分阐述LPC-530型保护器的功能及工作原理,正确认识保护器的作用和功能,对保护低压电动机存在着极为重要的作用。  [关键词]380 V工作段 保护器 功能  中图分类号:TM6 文献标识码:A 文章编号:1671-7597(2008)1120034-02    LPC1-530低压电动机综合保护测控装置主要用于380V低压电动机的保护和测控。为低压电动机提供各类启动和停车控制功能、保护
期刊