论文部分内容阅读
[摘 要]本文介绍了数据挖掘技术的基本概念、实现步骤及其采用的主要挖掘技术,同时介绍了数据挖掘技术在各行业中的应用。
[关键词]数据仓库数据挖掘步骤数据挖掘技术数据挖掘应用
随着数据库技术的迅速发展以及数据库系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
一、数据挖掘的作用
数据挖掘对发挥数据仓库的作用有很大影响,通过它可以识别出商务中的模式与趋势,而仅通过分析数据仓库数据是无法得出的。当知识工作者运用结构化查询语言(SQL)对数据仓库查询所需的信息时,查询中的歧义性常常涉及到与答案集有关的一系列知识。相反地,数据挖掘可以揭示出非常有价值的信息,这些信息在实施分析之前,知识工作者是无法得知的。这种新技术,有助于使公司取得较大的市场份额,建立更好的形象并推动公司向前发展。
二、数据挖掘的步骤
1.确定挖掘对象。了解要解决的问题,认清数据挖掘的目标,规定对结果进行衡量的标准以及整个项目预算等。在确定挖掘对象时,需要确定从何入手;需要挖掘什么数据;要用多少数据;数据挖掘到什么程度。数据挖掘是一个过程,在挖掘中还可能提出新的问题。
2.数据准备。在确定数据挖掘的对象后,搜索与其有关的内部数据和外部数据,建立数据挖掘库,并分析数据、准备数据。数据准备是否做好将影响到数据挖掘的效率、准确率以及最终模式的有效性。
3.挖掘模型的构建。常根据数据挖掘的目标,选取相应算法的参数,分析数据,形成知识的模式模型。
4.数据挖掘。对所得到的经过转化的数据进行挖掘。除了完善与选择合适的算法需要人工干预外,数据挖掘工作主要由挖掘工具自动完成。
5.结果分析。数据挖掘出现结果后,需要对结果进行解释并评估,以保证数据挖掘结果在实际应用中的成功率。具体的解释与评估方法一般应根据数据挖掘操作结果所制定的决策成败来定。
6.知识的应用。数据挖掘的结果经过业务决策人员的认可,才能获得实际利用。只有通过对数据挖掘的知识的应用,才能对数据挖掘最终的成果做出正确的评价。数据挖掘结果要能在实际中得到应用,需要将分析所得到的知识集成到组织机构中去,使这些知识在实际的管理决策分析中得到应用。
三、常用数据挖掘技术
1.传统分析类。传统的统计分析技术使用的数据挖掘模型有线性分析、非线性分析、回归分析、逻辑回归分析等。
2.知识发现类。知识发现类数据挖掘技术包括人工神经网络、决策树、遗传算法、粗糙集、规则发现等。
3.其他最新发展的一些数据挖掘技术。最新发展的数据挖掘技术包括文本数据挖掘、Web数据挖掘、可视化系统、空间数据挖掘和分布式数据挖掘技术等。
四、数据挖掘的应用
数据挖掘的应用十分广泛,各个领域应用上既有相同之处,又有各自不同的独特地方。
1.商品销售。数据挖掘技术应用最早也是最重要的领域。主要功能是:市场定位,消费者分析,预测销售趋势,优化营销策略,分析库存需求,识别顾客的购买行为模式,协助货架布置,制定促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。
2.金融服务/信用卡。预测存、贷款趋势,优化存、贷款策略;抽取预测模式;监督交易活动,发现交易规则。譬如说,一个持有信用卡的客户表示对一种载货卡车感兴趣,公司就可以向卡车部门发出一个电子邮件,并把该客户的信息告诉有关部门。
3.制造业。许多公司不仅将决策支持系统用于支持市场营销活动,而且,由于市场竞争越演越烈,有些公司已使用决策支持系统来监视制造过程。
4.Internet中的应用。研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。
5.远程通信。许多远程通讯的大公司近来突然发现它们面临极大的竞争压力,各公司当前都在积极收集大量的顾客信息,向他们现有的客户提供新的服务,开拓新的业务项目,以扩大他们的市场规模。从这些新的服务中,公司在短期内就可以取得更大的效益。
6.学校教育。学院分析学生历史信息,决定哪些人愿意报考何专业,发送手册给他们。分析教师的学历、年龄、职称等与授课效果的关联规则,制定教学方案,促进教学质量的提高。
7.其他应用
药房分析医师的处方,判断哪些医师愿意购买他们的产品。旅游调查局分析不同团体的旅游模式,决定不同团体之间的关联。在遥感领域针对每天从卫星上及其他方面来的巨额数据,对气象预报、臭氧层监测等能起很大作用。
参考文献
[1]陈京民主编.数据仓库与数据挖掘技术(第2版)[M].北京:电子工业出版社,2007
[关键词]数据仓库数据挖掘步骤数据挖掘技术数据挖掘应用
随着数据库技术的迅速发展以及数据库系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
一、数据挖掘的作用
数据挖掘对发挥数据仓库的作用有很大影响,通过它可以识别出商务中的模式与趋势,而仅通过分析数据仓库数据是无法得出的。当知识工作者运用结构化查询语言(SQL)对数据仓库查询所需的信息时,查询中的歧义性常常涉及到与答案集有关的一系列知识。相反地,数据挖掘可以揭示出非常有价值的信息,这些信息在实施分析之前,知识工作者是无法得知的。这种新技术,有助于使公司取得较大的市场份额,建立更好的形象并推动公司向前发展。
二、数据挖掘的步骤
1.确定挖掘对象。了解要解决的问题,认清数据挖掘的目标,规定对结果进行衡量的标准以及整个项目预算等。在确定挖掘对象时,需要确定从何入手;需要挖掘什么数据;要用多少数据;数据挖掘到什么程度。数据挖掘是一个过程,在挖掘中还可能提出新的问题。
2.数据准备。在确定数据挖掘的对象后,搜索与其有关的内部数据和外部数据,建立数据挖掘库,并分析数据、准备数据。数据准备是否做好将影响到数据挖掘的效率、准确率以及最终模式的有效性。
3.挖掘模型的构建。常根据数据挖掘的目标,选取相应算法的参数,分析数据,形成知识的模式模型。
4.数据挖掘。对所得到的经过转化的数据进行挖掘。除了完善与选择合适的算法需要人工干预外,数据挖掘工作主要由挖掘工具自动完成。
5.结果分析。数据挖掘出现结果后,需要对结果进行解释并评估,以保证数据挖掘结果在实际应用中的成功率。具体的解释与评估方法一般应根据数据挖掘操作结果所制定的决策成败来定。
6.知识的应用。数据挖掘的结果经过业务决策人员的认可,才能获得实际利用。只有通过对数据挖掘的知识的应用,才能对数据挖掘最终的成果做出正确的评价。数据挖掘结果要能在实际中得到应用,需要将分析所得到的知识集成到组织机构中去,使这些知识在实际的管理决策分析中得到应用。
三、常用数据挖掘技术
1.传统分析类。传统的统计分析技术使用的数据挖掘模型有线性分析、非线性分析、回归分析、逻辑回归分析等。
2.知识发现类。知识发现类数据挖掘技术包括人工神经网络、决策树、遗传算法、粗糙集、规则发现等。
3.其他最新发展的一些数据挖掘技术。最新发展的数据挖掘技术包括文本数据挖掘、Web数据挖掘、可视化系统、空间数据挖掘和分布式数据挖掘技术等。
四、数据挖掘的应用
数据挖掘的应用十分广泛,各个领域应用上既有相同之处,又有各自不同的独特地方。
1.商品销售。数据挖掘技术应用最早也是最重要的领域。主要功能是:市场定位,消费者分析,预测销售趋势,优化营销策略,分析库存需求,识别顾客的购买行为模式,协助货架布置,制定促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。
2.金融服务/信用卡。预测存、贷款趋势,优化存、贷款策略;抽取预测模式;监督交易活动,发现交易规则。譬如说,一个持有信用卡的客户表示对一种载货卡车感兴趣,公司就可以向卡车部门发出一个电子邮件,并把该客户的信息告诉有关部门。
3.制造业。许多公司不仅将决策支持系统用于支持市场营销活动,而且,由于市场竞争越演越烈,有些公司已使用决策支持系统来监视制造过程。
4.Internet中的应用。研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。
5.远程通信。许多远程通讯的大公司近来突然发现它们面临极大的竞争压力,各公司当前都在积极收集大量的顾客信息,向他们现有的客户提供新的服务,开拓新的业务项目,以扩大他们的市场规模。从这些新的服务中,公司在短期内就可以取得更大的效益。
6.学校教育。学院分析学生历史信息,决定哪些人愿意报考何专业,发送手册给他们。分析教师的学历、年龄、职称等与授课效果的关联规则,制定教学方案,促进教学质量的提高。
7.其他应用
药房分析医师的处方,判断哪些医师愿意购买他们的产品。旅游调查局分析不同团体的旅游模式,决定不同团体之间的关联。在遥感领域针对每天从卫星上及其他方面来的巨额数据,对气象预报、臭氧层监测等能起很大作用。
参考文献
[1]陈京民主编.数据仓库与数据挖掘技术(第2版)[M].北京:电子工业出版社,2007