论文部分内容阅读
【摘要】在高校毕业生就业形势日趋严峻的形势下,需求形势的好坏和需求信息利用程度直接影响到高校毕业生就业工作的顺利开展。本文在分析数据挖掘技术的应用特点的基础上,结合工作实际,讨论了用人单位管理的特殊性,并就算法选择、模型构建等环节,给出了在用人单位管理中应用数据挖掘技术的实用方案,最后进行了简要的效果评价与分析。
【关键词】数据挖掘;用人单位管理;算法;模型;挖掘过程
随着高校毕业生就业形势的进一步严峻和就业工作压力的增大,因此,进一步开拓毕业生就业市场,挖掘市场需求,充分利用需求信息,促进毕业生顺利就业,已经成为每一个高校就业工作的重点。本文描述了使用数据挖掘技术,如何选择挖掘算法与建模,应用适当算法发现供需数据中不同专业之间的联系,找出招聘行为模式的过程。
一、数据挖掘技术
数据挖掘是数据库中的知识发现(Know-
ledge Discovery in Databases,KDD)的一个基本步骤,是指从数据库或数据仓库中提取隐含的、未知的、潜在的和有用信息的非平凡过程。数据挖掘的主要技术手段包括关联规则挖掘、分类分析、聚类分析、估计、预测、时序模式和偏差分析等。数据挖掘技术的核心研究内容是相应的数据挖掘算法研究,包括贝叶斯算法、决策树、时序算法、聚类算法、关联算法、神经网络算法和回归算法。
二、数据挖掘的核心价值与应用分析
当高校建立起数据仓库后,可采用不同的数据挖掘算法为用人单位管理提供直接、有效的数据与参考。高校毕业生就业工作中,与用人单位相关业务大多与招聘过程有关,包括单位招聘、学校推荐、单位分类管理和需求预测等。对单位招聘行为的分析,可以为个性化推荐提供客观依据,最有效的推荐是针对有招聘计划的单位,通过挖掘关联关系,寻找有价值的单位分类,能够提高单位管理的有效性。
在用人单位管理中应用数据挖掘技术,不仅使用人单位管理更高效、更实用,还能预测用人单位将来的招聘行为,为高校就业工作实施更精确的用人单位管理和就业市场建设提供决策依据。
用人单位管理的目标非常明确,防范“老关系”单位流失,从“老关系”单位那里获取更大的价值。
三、挖掘算法的选择与建模
数据挖掘虽然是一个智能的数据分析工具,但其准确性会受到多个方面因素的影响,如数据的准确性、合法性、算法选择的准确性、输入选择的正确性等,在实际应用中,不同的人、不同的挖掘策略与方案将会有不同的结果,应用人员和数据挖掘人员一起共同探讨正确性。下面针对上述具体应用,提出可行的挖掘方案,以供参考。
1、挖掘用人单位招聘行为信息的算法与模型
用人单位在招聘毕业生时,往往有一个习惯:先挑选最需要的专业,然后根据学校推荐或兴趣来挑选其他专业,就业工作部门中可以分析每个单位的招聘行为和爱好,为将来的个性化推荐提供依据,并为每个单位提供最具科学的推荐,这要使用序列聚类算法。
实现此功能需要两个基本信息:一是招聘信息,关注单位的一次招聘行为;二是需求信息明细(包括:需求专业、专业代码、学历、人数等),主要关注招聘专业放入订单的先后顺序。
在业务库中,有用人单位信息表、需求专业信息表、毕业生生源信息表、招聘信息4个业务表,如图1所示,在创建数据仓库后,用人单位信息表、生源信息表将变成维表,招聘信息表、需求专业信息表将变成事实表。
图1
其数据挖掘模型如下:
Create Mining Model Order Speciality Sequence(
OrderID long key,//招聘信息ID
OrderDetail table Predict(//嵌套表,需求专业信息
Speciality Sequence long key Sequence,//专业需求序号
Speciality tname text Discrete Predict//专业名称
)
)Using Microsoft_Sequence_Clustering
根据以往的需求信息,分析单位的需求,其重点在于历史数据中每个招聘信息清单要有专业需求的先后顺序,结合序列聚类算法即可完成,此模型的输入列是清单编号,预测列是一个嵌套表,包括专业序号和专业编号(或名称)两个可预测试列。
2、挖掘需求趋向实现有效推荐的算法与模型
高校进行专业宣传或介绍时,有效做法是只把生源信息发送给有意向的用人单位,基于以前所做的企业档案和企业对专业调查的反馈结果,采用数据挖掘算法可以找出有意向的企业,即节省成本,又提高效率。
这个功能的关键是根据以前所做的毕业生追踪调查反馈信息,预测哪些因素影响单位的招聘,并分析招聘单位的特征,基于这些特征,把用人单位表里的所有信息重新筛选一遍,只向那些具有招聘特征的客户发送生源信息。
如图2(个性推荐数据结构)所示。
图2
其数据模型如下:
Create Mining Model Person Recommend(
单位ID long Key,
区域Text Discrete,
行业text Discrete,
单位性质text Discrete,
员工数量long CONTINUOUS,
固定资产long CONTINUOUS,
是否需求Text predict
)Using Microsoft_Naive_Bayes
3、挖掘有价值的单位分类信息的算法与模型
单位分类比较复杂,按性质、行业、地区对单位进行分类,是一种比较常见的方法,但不能准确反映出其对单位的影响,采用数据挖掘中的聚类算法,可以给出历史单位中最能影响单位分类的关键因素,并把单位细分成更多的组,以使每个组里的单位具有更多的相似性和特征。如图3(单位分类数据结构)所示:
其数据模型如下:
Create Mining Model Person Recommend(
单位ID long Key,
区域Text Discrete,
行业text Discrete,
单位性质text Discrete,
员工数量long CONTINUOUS,
固定资产long CONTINUOUS,
)Using Microsoft_Clustering
不需要指定输出列,只需要定义输入列即可,其余的都交给数据挖掘算法去完成。算法会自动依据历史数据,找出不同输入列分类之间的差异,从而给出最合适的分类依据,采用不同的算法,得出的结果可能会不同。
影响数据挖掘结果主要有以下几个因素:一是数据的准确性,二是合适的算法。数据的准确性必须在建立数据仓库时,要保证数据的真实性和正确性,如果是码表,则必须保证码表的转换是合法的数据。若结果与历史情况不符,则必须验证数据挖掘的每一个步骤都正确,包括数据的来源、ETL过程、数据仓库的更新、挖掘算法、输入列、输出列、阈值及值的微调等。
四、评估与总结
研究的重点在于以一套完整的、符合高校就业工作实际的用人单位管理理论为基础,结合先进的软件技术、数据挖掘技术,为高校如何快速、高效的挖掘市场需求,充分利用需求信息提供了有力的参考与借鉴。充分讨论了数据挖掘技术所带来的重大意义,以及在单位管理中应用的步骤和方法,并给出具体的实例做为参考。
参考文献
[1]初佃辉,郑宏珍.基于数据挖掘的供应链产品优化配置[J].计算机工程,2010,2.
[2]王丹,陈田养.高校毕业生就业市场建设的探索与思考[J].中国大学生就业,2008(20).
[3]罗华群,易国平.校园一卡通数据的挖掘与应用[J].科技信息,2010(1).
【关键词】数据挖掘;用人单位管理;算法;模型;挖掘过程
随着高校毕业生就业形势的进一步严峻和就业工作压力的增大,因此,进一步开拓毕业生就业市场,挖掘市场需求,充分利用需求信息,促进毕业生顺利就业,已经成为每一个高校就业工作的重点。本文描述了使用数据挖掘技术,如何选择挖掘算法与建模,应用适当算法发现供需数据中不同专业之间的联系,找出招聘行为模式的过程。
一、数据挖掘技术
数据挖掘是数据库中的知识发现(Know-
ledge Discovery in Databases,KDD)的一个基本步骤,是指从数据库或数据仓库中提取隐含的、未知的、潜在的和有用信息的非平凡过程。数据挖掘的主要技术手段包括关联规则挖掘、分类分析、聚类分析、估计、预测、时序模式和偏差分析等。数据挖掘技术的核心研究内容是相应的数据挖掘算法研究,包括贝叶斯算法、决策树、时序算法、聚类算法、关联算法、神经网络算法和回归算法。
二、数据挖掘的核心价值与应用分析
当高校建立起数据仓库后,可采用不同的数据挖掘算法为用人单位管理提供直接、有效的数据与参考。高校毕业生就业工作中,与用人单位相关业务大多与招聘过程有关,包括单位招聘、学校推荐、单位分类管理和需求预测等。对单位招聘行为的分析,可以为个性化推荐提供客观依据,最有效的推荐是针对有招聘计划的单位,通过挖掘关联关系,寻找有价值的单位分类,能够提高单位管理的有效性。
在用人单位管理中应用数据挖掘技术,不仅使用人单位管理更高效、更实用,还能预测用人单位将来的招聘行为,为高校就业工作实施更精确的用人单位管理和就业市场建设提供决策依据。
用人单位管理的目标非常明确,防范“老关系”单位流失,从“老关系”单位那里获取更大的价值。
三、挖掘算法的选择与建模
数据挖掘虽然是一个智能的数据分析工具,但其准确性会受到多个方面因素的影响,如数据的准确性、合法性、算法选择的准确性、输入选择的正确性等,在实际应用中,不同的人、不同的挖掘策略与方案将会有不同的结果,应用人员和数据挖掘人员一起共同探讨正确性。下面针对上述具体应用,提出可行的挖掘方案,以供参考。
1、挖掘用人单位招聘行为信息的算法与模型
用人单位在招聘毕业生时,往往有一个习惯:先挑选最需要的专业,然后根据学校推荐或兴趣来挑选其他专业,就业工作部门中可以分析每个单位的招聘行为和爱好,为将来的个性化推荐提供依据,并为每个单位提供最具科学的推荐,这要使用序列聚类算法。
实现此功能需要两个基本信息:一是招聘信息,关注单位的一次招聘行为;二是需求信息明细(包括:需求专业、专业代码、学历、人数等),主要关注招聘专业放入订单的先后顺序。
在业务库中,有用人单位信息表、需求专业信息表、毕业生生源信息表、招聘信息4个业务表,如图1所示,在创建数据仓库后,用人单位信息表、生源信息表将变成维表,招聘信息表、需求专业信息表将变成事实表。
图1
其数据挖掘模型如下:
Create Mining Model Order Speciality Sequence(
OrderID long key,//招聘信息ID
OrderDetail table Predict(//嵌套表,需求专业信息
Speciality Sequence long key Sequence,//专业需求序号
Speciality tname text Discrete Predict//专业名称
)
)Using Microsoft_Sequence_Clustering
根据以往的需求信息,分析单位的需求,其重点在于历史数据中每个招聘信息清单要有专业需求的先后顺序,结合序列聚类算法即可完成,此模型的输入列是清单编号,预测列是一个嵌套表,包括专业序号和专业编号(或名称)两个可预测试列。
2、挖掘需求趋向实现有效推荐的算法与模型
高校进行专业宣传或介绍时,有效做法是只把生源信息发送给有意向的用人单位,基于以前所做的企业档案和企业对专业调查的反馈结果,采用数据挖掘算法可以找出有意向的企业,即节省成本,又提高效率。
这个功能的关键是根据以前所做的毕业生追踪调查反馈信息,预测哪些因素影响单位的招聘,并分析招聘单位的特征,基于这些特征,把用人单位表里的所有信息重新筛选一遍,只向那些具有招聘特征的客户发送生源信息。
如图2(个性推荐数据结构)所示。
图2
其数据模型如下:
Create Mining Model Person Recommend(
单位ID long Key,
区域Text Discrete,
行业text Discrete,
单位性质text Discrete,
员工数量long CONTINUOUS,
固定资产long CONTINUOUS,
是否需求Text predict
)Using Microsoft_Naive_Bayes
3、挖掘有价值的单位分类信息的算法与模型
单位分类比较复杂,按性质、行业、地区对单位进行分类,是一种比较常见的方法,但不能准确反映出其对单位的影响,采用数据挖掘中的聚类算法,可以给出历史单位中最能影响单位分类的关键因素,并把单位细分成更多的组,以使每个组里的单位具有更多的相似性和特征。如图3(单位分类数据结构)所示:
其数据模型如下:
Create Mining Model Person Recommend(
单位ID long Key,
区域Text Discrete,
行业text Discrete,
单位性质text Discrete,
员工数量long CONTINUOUS,
固定资产long CONTINUOUS,
)Using Microsoft_Clustering
不需要指定输出列,只需要定义输入列即可,其余的都交给数据挖掘算法去完成。算法会自动依据历史数据,找出不同输入列分类之间的差异,从而给出最合适的分类依据,采用不同的算法,得出的结果可能会不同。
影响数据挖掘结果主要有以下几个因素:一是数据的准确性,二是合适的算法。数据的准确性必须在建立数据仓库时,要保证数据的真实性和正确性,如果是码表,则必须保证码表的转换是合法的数据。若结果与历史情况不符,则必须验证数据挖掘的每一个步骤都正确,包括数据的来源、ETL过程、数据仓库的更新、挖掘算法、输入列、输出列、阈值及值的微调等。
四、评估与总结
研究的重点在于以一套完整的、符合高校就业工作实际的用人单位管理理论为基础,结合先进的软件技术、数据挖掘技术,为高校如何快速、高效的挖掘市场需求,充分利用需求信息提供了有力的参考与借鉴。充分讨论了数据挖掘技术所带来的重大意义,以及在单位管理中应用的步骤和方法,并给出具体的实例做为参考。
参考文献
[1]初佃辉,郑宏珍.基于数据挖掘的供应链产品优化配置[J].计算机工程,2010,2.
[2]王丹,陈田养.高校毕业生就业市场建设的探索与思考[J].中国大学生就业,2008(20).
[3]罗华群,易国平.校园一卡通数据的挖掘与应用[J].科技信息,2010(1).