数据挖掘算法研究

来源 :中外企业文化 | 被引量 : 0次 | 上传用户:hanyikuaile1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【文章摘要】
  本文主要介绍的模型和算法都是数据挖掘中最常见的和应用最广泛的,在计算机科学、统计数学、和人工智能领域的科学家们已经在研究和改进这些算法方面作了大量的工作。
  【关键词】
  数据挖掘;算法;神经网络
  1 神经网络的应用
  神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。神经网络常用于两类问题;分类和回归。
  在结构上,可以把一个神经网络划分为输入层、输出层和隐含层(见图1)。输入層的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层,隐含层的层数和每层节点的个数决定了神经网络的复杂度。
  图1 一个神经元网络
  除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们把这个函数称为活动函数或挤压函数。如图2中节点4输出到节点6的值可通过如下计算得到:
  W14*节点1的值+W24*节点2的值
  神经网络的每个节点都可表示成预测变量(节点1,2)的值或值的组合(节点3-6)。注意节点6的值已经不再是节点1,2的线性组合,因为数据在隐含层中传递时使用了活动函数。实际上如果没有活动函数的话,神经元网络就等价于一个线性回归函数,如果此活动函数是某种特定的非线性函数,那神经网络又等价于逻辑回归。
  调整节点间连接的权重就是在建立(也称训练)神经网络时要做的工作。最早的也是最基本的权重调整方法是错误回馈法,现在较新的有变化坡度法、类牛顿法、Levenberg-Marquardt法、和遗传算法等。
  图2 带权重Wxy的神经元网络
  决定神经网络拓扑结构(或体系结构)的是隐含层及其所含节点的个数,以及节点之间的连接方式。要从头开始设计一个神经网络,必须要决定隐含层和节点的数目,活动函数的形式,以及对权重做那些限制等。
  2 传播式神经网络
  在诸多类型的神经网络中,最常用的是前向传播式神经网络,也就是我们前面图示中所描绘的那种。我们下面详细讨论一下,为讨论方便假定只含有一层隐含节点。
  可以认为错误回馈式训练法是变化坡度法的简化,其过程如下:
  前向传播:数据从输入到输出的过程是一个从前向后的传播过程,后一节点的值通过它前面相连的节点传过来,然后把值按照各个连接权重的大小加权输入活动函数再得到新的值,进一步传播到下一个节点。
  回馈:当节点的输出值与我们预期的值不同,也就是发生错误时,神经网络就要“学习”(从错误中学习)。我们可以把节点间连接的权重看成后一节点对前一节点的“信任”程度。学习的方法是采用惩罚的方法,过程如下:如果一节点输出发生错误,那么他看他的错
  误是受哪个(些)输入节点的影响而造成的,是不是他最信任的节点(权重最高的节点)陷害了他(使他出错),如果是则要降低对他的信任值(降低权重),惩罚他们,同时升高那些做出正确建议节点的信任值。对那些收到惩罚的节点来说,他也需要用同样的方法来进一步惩罚它前面的节点。就这样把惩罚一步步向前传播直到输入节点为止。
  对训练集中的每一条记录都要重复这个步骤,用前向传播得到输出值,如果发生错误,则用回馈法进行学习。当把训练集中的每一条记录都运行过一遍之后,我们称完成一个训练周期。要完成神经网络的训练可能需要很多个训练周期,经常是几百个。训练完成之后得到的神经网络就是在通过训练集发现的模型,描述了训练集中响应变量受预测变量影响的变化规律。
  由于神经网络隐含层中的可变参数太多,如果训练时间足够长的话,神经网络很可能把训练集的所有细节信息都“记”下来,而不是建立一个忽略细节只具有规律性的模型,我们称这种情况为训练过度。显然这种“模型”对训练集会有很高的准确率,而一旦离开训练集应用到其他数据,很可能准确度急剧下降。为了防止这种训练过度的情况,我们必须知道在什么时候要停止训练。
  图3中的曲线可以帮我们理解为什么利用测试集能防止训练过度的出现。在图中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加不断降低,而测试集的错误率在达到一个谷底后反而上升,我们认为这个开始上升的时刻就是应该停止训练的时刻。
  图3 神经网络在训练周期
  增加时准确度的变化情况
  3 神经网络的优点
  神经元网络和统计方法在本质上有很多区别。神经网络的参数可以比统计方法多很多。如图1中就有13个参数(9个权重和4个限制条件)。由于参数如此之多,参数通过各种各样的组合方式来影响输出结果,以至于很难对一个神经网络表示的模型做出直观的解释。实际上神经网络也正是当做“黑盒”来用的,不用去管“黑盒”里面是什么,只管用就行了。在大部分情况下,这种限制条件是可以接受的。比如银行可能需要一个笔记识别软件,但他没必要知道为什么这些线条组合在一起就是一个人的签名,而另外一个相似的则不是。在很多复杂度很高的问题如化学试验、机器人、金融市场的模拟、和语言图像的识别等领域神经网络都取得了很好的效果。
  4 在使用神经网络时有几点需要注意
  第一,神经网络很难解释,目前还没有能对神经网络做出显而易见的解释的方法学。
  第二,神经网络会学习过度,在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。这主要是由于神经网络太灵活、可变参数太多,如果给足够的时间,他几乎可以记住任何事情。
  第三,除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成。当然,一旦神经网络建立好了,在用它做预测时运行还是很快的。
  第四,建立神经网络需要做的数据准备工作量很大。一个很有误导性的就是不管用什么数据神经网络都能很好的工作并做出准确的预测。这是不确切的,要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作,对任何数据挖掘技术都是这样,神经网络尤其注重这一点。
  【参考文献】
  熊熊,汪德馨,宋轶民.利用模糊神经网络进行模糊数据挖掘的一种算法[J].系统工程学报,2000,3(1):32-37.
  【作者简介】
  陈晨(1986—),女,辽宁沈阳人,就职于辽宁省科学技术厅,同济大学软件学院硕士研究生。
其他文献
【文章摘要】  在我们的社会生活中,信息化由专业术语演变为大众用语;在观念世界里,人们对生活的看法也在经历着由科技进步而激发的大震荡。计算机的普及,网络的发展,让信息化的发展比任何时候都来得迅猛。在这种情况下也使得其参与性、互动性增强,公众的参与增多。也使得艺术形式冲破传统的束缚,出现了更多的演变及创新。  【关键词】  信息化;计算机;转变;影响  当今企业的生存环境与十年前相比发生了巨大的变化
期刊
【文章摘要】  本文指出了监控建筑工程质量工作的特点,分析了传统人工监控的不足,在改进传统流程的基础上,说明了利用计算机信息管理实行建筑工程质量动态监控的特点,并阐述了信息管理监控的功能。  【关键词】  建设工程;质量检测;计算机;信息系统  0 引言  我国工程质量事故已经有很多血的教训,除其本质原因外,政府授权的专职机构如建筑工程质量监督站等在行使工程质量监督时具有不可推卸的责任。建筑工程作
期刊
【文章摘要】  如何建立一个安全、便捷的电子商务应用环境,对信息提供足够的保护,已经成为十分关注的问题。所以本文选择对商务公司的网络信息安全进行研究分析,并给出相应的对策,具有重要的现实意义。  【关键词】  电子商务;信息安全;技术  0 引言  由于Internet及其应用在全球范围内的迅速普及,企业信息化建设也有了更进一步的发展,电子商务使得企业信息系统更加的完善,也更加方便快捷的满足了现在
期刊
【文章摘要】  目前,我国的科学技术依然处在飞速的发展状态当中,诸多方面不同的工作领域对高科学技术设备设施都进行了充分的应用,其中,医学领域也将计算机技术进行了深入的探索,并在诸多方面进行了实际应用,从而为医学带来更高且更多的工作效率以及经济效益。文章将科学技术当中迅速发展起来的自动化管理系统作为主要的研究对象,通过对自动化管理系统进行概述上的分析,研究其中的设计原则,并在此基础上对医院中的自动化
期刊
【文章摘要】  信息安全是现今我国电子政务发展的“瓶颈”问题,必须采取有效措施,从管理和技术两方面来保证电子政务的安全。目前,加速政府信息化建设,实施电子政务,已成为各国政府再造的战略性措施。  【关键词】  电子政务;信息安全;措施  1 电子政务的含义  电子政务是指借助电子信息技术而进行的政务活动,它是电子信息技术与政务活动的交集。电子政务是目前政务活动的主要形式,且电子政务系统将会以其方便
期刊
【文章摘要】  文章主要介绍了线损管理系统的需求及设计,并简要介绍了开发中数据库设计的难点。首先对线损管理的日常工作进行了分析,并根据分析提出了线损管理系统应具备的基本功能。根据功能及性能需求选择了ASP.NET作为主要开发技术,以及SQL SERVER2000作为后台数据库,开发出该线损管理系统。  【关键词】  信息技术;线损;管理;设计  信息技术日新月异,并且在企业管理中得到越来越广泛和深
期刊
【文章摘要】  论文认为,随着我国社会经济的发展,计算机网络也迅速普及,渗透到我们生活的方方面面。然而由于网络自身固有的脆弱和中国的网络信息技术起步比较晚使网络安全存在很多潜在的威胁。在当今这样“数字经济”的时代,网络安全显得尤为重要,也受到人们越来越多的关注。本文主要是从分析我国网络安全存在的问题以及解决对策两个方面入手。  【关键词】  网络安全;问题;防范措施  0 引言  随着经济的迅速发
期刊
【文章摘要】  针对RPC中间件技术面对规模和复杂度相对较高的分布式系统时,在同步通信、客户和服务对象的生命周期紧密耦合、点对点通信上所显示出的局限性,提出了一种异步手机短信和邮件发送消息中心平台(MCP)解决方案。发送者将消息发送给消息服务器,消息服务器将消息存放在若干队列中,在合适的时候再将消息转发给接收者。  【关键词】  MCP;SMS;ActiveMQ  0 引言  随着网络的发展,系统
期刊
【文章摘要】  该文阐述了地形测量和测绘技术相关概念及目前地形测量的测绘自动化技术,并探讨了测绘技术自动化技术的发展趋势。  【关键词】  地形测量;测绘技术;发展趋势  0 引言  地形测量是为城市、矿区以及各种工程提供不同比例尺的地形图,以满足城镇规划、矿山开采设计以及各种经济建设的需要。  地形测绘是研究地球局部表面形状和大小,并将其测绘成地形团的理论和技术。通过测定小范围地表高低起伏形态和
期刊
【文章摘要】  笔者结合当前无线网络和无线局域网建设的现状,分析了其安全隐患,探讨了当前各种无线网络安全机制解决方案的优劣,提出解决无线网络安全隐患的对策措施。  【关键词】  无线网络;安全;防范措施  随着信息化技术的飞速发展,很多网络都开始实现无线网络的覆盖以此来实现信息电子化交换和资源共享。无线网络和无线局域网的出现大大提升了信息交换的速度和质量,为很多的用户提供了便捷和子偶的网络服务,但
期刊