论文部分内容阅读
摘要:基于社会海量的数据分析的需求、人工智能与机器学习、统计学等理论的应用等数据挖掘诞生发展的理论挑战,数据挖掘技术应用而生。该文结合数据挖掘的相关理论知识,通过数据挖掘在实际中的应用,分析探讨了数据挖掘中存在的问题及研究方向。本文基于Clementine的数据挖掘技术对住房意向影响因素进行分析,主要利用Modeler的基本分析对住房状况调查应用分析研究,从而对房地产行业进行数据挖掘提供一定的借鉴和指导意义。
关键词: 住房状况;数据挖掘;Clementine;Modeler的基本分析
引言
数据挖掘是一个新兴的研究方向,它融合了多种学科进行研究探索。它的基本目标就是海量无序的数据中提取出不可见的却有用的知识和信息。目前从数据挖掘研究和开发应用表明:数据挖掘的需要涉及到多种不同的应用任务,从数据的预处理到相关性分组或关联规则、聚类分析、数据分类、偏差检查、序列模式、描述和可视化等等特定的模式。因此, 这一技术应用是一个极富挑战性的任务。数据挖掘技术在实际的研究过程中综合了金融、医疗、保健、零售、和政务等各个领域,取得了良好的社会经济效益,以此可以看出数据挖掘技术在现实中有着较为广泛的应用和开发前景。
1、数据挖掘技术及应用
1.1 数据挖掘技术
数据挖掘技术面对的主要对象为庞大的数据库,以此便能够进行有效的信息搜索和查询。一般而言,一般情况下,大数据挖掘系统包括七个方面的内容:用户图形界面接口、模式评估、数据挖掘引擎、数据库或数据仓库服务器、数据基地、数据仓库以及知识储备库。
1.2 数据挖掘技术的应用
数据挖掘技术不仅包括对特定数据库的简单检索查询,还包括对数据的不同层面、不同角度的统计、分析、推理和综合,以此得到问题的求解,以及发现事件之间的联系。国外, 在大型商业、信贷公司、货代公司等得到广泛的应用。国内,对于传统的生产行业,特别是食品、饮料等快销品行业,在生产中搜集有利于指导企业生产的数据,对提高企业的产品质量以及市场竞争力将会有很大的作用。
数据挖掘技术给我们的生活带来诸多的方便,能够提高生活的质量改善生活效率。在商场管理中利用数据挖掘技术,通过寻求不同商品之间在销售过程中的内在联系,可以增加商场的销售额;在银行系统中通过数据挖掘技术对潜在的违约客户进行预测和判断,可以减少银行在贷款过程中的风险。综上,数据挖掘技术在实际生活中的应用越来越广泛。
2、Modeler的基本分析及其应用案例
2.1 Modeler的基本分析
Modeler的基本分析包括:
(1)数值型变量的基本分析
(2)两分类型变量相关性的研究
(3)两个总体的均值比较
(4)RFM分析
2.2 以住房状况调查为例,对数据进行Modeler的基本分析
住房状况数据来源于:国家统计局
利用住房状况调查数据,对其进行Modeler的基本分析前两项进行具体操作及分析。
2.3 计算统计量并分析变量之间的相关性
(1)计算家庭收入、购房价位、计划面积以及年龄的计数、平均值、最小值等统计量。年龄、家庭收入、计划面积以及购房价位两两变量之间的相关性。
(2)绘制散点图
通过图1知,计划购房面积集中在100平方米左右,购房类型以多层商品房和高层商品房为主。
(3)文化程度与房屋产权相关性的数值分析
1代表:无产权;2代表:部分产权;31代表:二手房代表:32代表:经济适用房; 33代表:多层商品房; 34代表:高层商品房; 35代表:别墅;36代表:其它;
调查人群里以多层商品房产权最多,高中和大学学历水平的人群拥有房屋产权的人数最多。
3、综合评价
通过收集住房状况的数据,用Modeler的基本分析方法对住房影响因素进行分析。对数值型变量和分类型变量分别采用统计量分析、散点图分析和条形图及网状图、矩阵形式的分析。通过分析研究发现:住房状况受到家庭收入、文化程度、户口状况、年龄等相关变量的影响,其中家庭收入是最直接、最主要的影响因素。
4、结语
本文基于数据挖掘理论及应用的基础,对影响房地产购买意向进行影响因子分析、相关性分析。发现家庭收入是决定购房状况的最直接、最主要的因素。通过對结果量化分析,以此来为相关行业提供参考。
参考文献:
[1] 周黎明, 邱均平. 基于网络的内容分析法[J].情报学报,2005(5):594-599.
[2] 纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2008.
[3] 叶云,万明明.网络信息挖掘技术探讨[J].广西大学学报,2007(S1).
作者简介:杨慧慧,1992年8月,女,汉,河南商丘,研究方向:现代物流系统规划及建模仿真。
关键词: 住房状况;数据挖掘;Clementine;Modeler的基本分析
引言
数据挖掘是一个新兴的研究方向,它融合了多种学科进行研究探索。它的基本目标就是海量无序的数据中提取出不可见的却有用的知识和信息。目前从数据挖掘研究和开发应用表明:数据挖掘的需要涉及到多种不同的应用任务,从数据的预处理到相关性分组或关联规则、聚类分析、数据分类、偏差检查、序列模式、描述和可视化等等特定的模式。因此, 这一技术应用是一个极富挑战性的任务。数据挖掘技术在实际的研究过程中综合了金融、医疗、保健、零售、和政务等各个领域,取得了良好的社会经济效益,以此可以看出数据挖掘技术在现实中有着较为广泛的应用和开发前景。
1、数据挖掘技术及应用
1.1 数据挖掘技术
数据挖掘技术面对的主要对象为庞大的数据库,以此便能够进行有效的信息搜索和查询。一般而言,一般情况下,大数据挖掘系统包括七个方面的内容:用户图形界面接口、模式评估、数据挖掘引擎、数据库或数据仓库服务器、数据基地、数据仓库以及知识储备库。
1.2 数据挖掘技术的应用
数据挖掘技术不仅包括对特定数据库的简单检索查询,还包括对数据的不同层面、不同角度的统计、分析、推理和综合,以此得到问题的求解,以及发现事件之间的联系。国外, 在大型商业、信贷公司、货代公司等得到广泛的应用。国内,对于传统的生产行业,特别是食品、饮料等快销品行业,在生产中搜集有利于指导企业生产的数据,对提高企业的产品质量以及市场竞争力将会有很大的作用。
数据挖掘技术给我们的生活带来诸多的方便,能够提高生活的质量改善生活效率。在商场管理中利用数据挖掘技术,通过寻求不同商品之间在销售过程中的内在联系,可以增加商场的销售额;在银行系统中通过数据挖掘技术对潜在的违约客户进行预测和判断,可以减少银行在贷款过程中的风险。综上,数据挖掘技术在实际生活中的应用越来越广泛。
2、Modeler的基本分析及其应用案例
2.1 Modeler的基本分析
Modeler的基本分析包括:
(1)数值型变量的基本分析
(2)两分类型变量相关性的研究
(3)两个总体的均值比较
(4)RFM分析
2.2 以住房状况调查为例,对数据进行Modeler的基本分析
住房状况数据来源于:国家统计局
利用住房状况调查数据,对其进行Modeler的基本分析前两项进行具体操作及分析。
2.3 计算统计量并分析变量之间的相关性
(1)计算家庭收入、购房价位、计划面积以及年龄的计数、平均值、最小值等统计量。年龄、家庭收入、计划面积以及购房价位两两变量之间的相关性。
(2)绘制散点图
通过图1知,计划购房面积集中在100平方米左右,购房类型以多层商品房和高层商品房为主。
(3)文化程度与房屋产权相关性的数值分析
1代表:无产权;2代表:部分产权;31代表:二手房代表:32代表:经济适用房; 33代表:多层商品房; 34代表:高层商品房; 35代表:别墅;36代表:其它;
调查人群里以多层商品房产权最多,高中和大学学历水平的人群拥有房屋产权的人数最多。
3、综合评价
通过收集住房状况的数据,用Modeler的基本分析方法对住房影响因素进行分析。对数值型变量和分类型变量分别采用统计量分析、散点图分析和条形图及网状图、矩阵形式的分析。通过分析研究发现:住房状况受到家庭收入、文化程度、户口状况、年龄等相关变量的影响,其中家庭收入是最直接、最主要的影响因素。
4、结语
本文基于数据挖掘理论及应用的基础,对影响房地产购买意向进行影响因子分析、相关性分析。发现家庭收入是决定购房状况的最直接、最主要的因素。通过對结果量化分析,以此来为相关行业提供参考。
参考文献:
[1] 周黎明, 邱均平. 基于网络的内容分析法[J].情报学报,2005(5):594-599.
[2] 纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2008.
[3] 叶云,万明明.网络信息挖掘技术探讨[J].广西大学学报,2007(S1).
作者简介:杨慧慧,1992年8月,女,汉,河南商丘,研究方向:现代物流系统规划及建模仿真。