论文部分内容阅读
摘 要: 随着互联网技术的发展,Web已成为当今世界上信息传播的主要途径,通过对Web的挖掘,可从中提取所需的知识,而高层次高素质人才是高等院校立校之本和发展之源,也是综合实力及竞争力的体现,旨在通过研究Web挖掘技术,并将其应用到人才引进过程中,找到人才引进的方法,有助于开展针对性的人才引进工作。
关键词: 数据挖掘;Web挖掘;人才引进
中图分类号:TP399 文献标识码:A 文章编号:1671-7597(2011)1220123-01
0 引言
互联网的发展给人们提供了很多有价值的信息,能否从Internet上找到适合高校发展的人才信息,Web数据挖掘是从大量的Web文档集合和用户浏览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。Web数据挖掘可以在许多领域发挥作用。
1 数据挖掘相关知识点
1.1 数据挖掘。数据挖掘(Data Mining)即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识的非平凡过程[1]。
1.2 Web挖掘。Web挖掘是指从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含的信息[2]。Web挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析,以实现对Web存取模式、Web结构和规则的分析,以及动态Web内容的查找。
1.3 Web挖掘分类。一般地,根据Web挖掘研究的对象,可以将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘,其中Web内容挖掘和Web使用记录挖掘是Web挖掘的两个主要方面。
2 搜索引擎介绍
2.1 定义
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的信息展示给用户的系统[3]。
2.2 搜索引擎分类
1)全文索引:全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。2)目录索引:目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。3)元搜索引擎:元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
3 Web挖掘技术在人才引进方面的应用
3.1 人才引进。人才引进即人才的招聘与录用[4]。从人力资源管理角度来说,人才招聘与录用的程序包括人才需求预测、制订人才队伍规划(短期、长期)、招聘测试与面试、岗前培训、任职考核、正式聘用上岗[5]。人才引进是一项系统的管理工作,本文人才引进指的从网络中搜索人才的相关信息。
3.2 人才引进信息挖掘流程。本文从互联网上获取相关人才的信息,首先要从成千上万的网站中找到所需要的站点,然后选择站点中的相应页面,再批量获取HTML文档,这些文档可能包含许多无用的东西,需要进行相应的清洗处理。HTML文档是半结构化的,缺乏结构性和组织性,有必要将数据放到关系数据库中集中存储,最后对数据进行分析、挖掘。流程如下所示:Internet→HTML→清洗、处理→数据库→挖掘、分析。
3.3 人才引进相关网页数据源搜集。对Baidu进行如下设定,选择和我们研究需要匹配的人才引进相关的网页:
① 关键字选择:人才引进的英文翻译有“talent introduction”、“introduction of talent”。查询试验结果分别是(查询字词位于标题,英文):“talent introduction”——找到相关结果约900,000个,“introduction of talent”——找到相关结果约1,860,000个,最后确定查询关键字为:talent introduction。② 搜索结果:选择包含完整字句9300000条结果,包含全部字词7360000条结果,但是查询发现后者最后的查询结果实际和我们需要的主题关联度不高,而且会干扰人才引进这一核心,对排序产生一定影响,因此,选择前者:包含完整字句。③ 语言:汉语。④ 文件格式:任何格式。⑤ 日期:任何时间。⑥ 字词位置:查询字词位于网页的标题。作用在于增加搜索结果的精准率,而且试验结果的8160000项基本能表达出总体的特征。⑦ 网域:无限制。⑧ 使用权限:无限制。
对搜索到的网页手动进行下载,分别基本记录了每个网页的URL、文本内容、标题,并对每个国家的前10%的网页提取了源文件,作为后面分析的数据源。
3.4 人才引进相关网页数据源清理。因为Web数据是异质、分布、动态的信息源。数据的清理是直接影响挖掘结果的重要一环,在一般数据挖掘活动中,数据清理一般要占到整个过程的50%到70%。这里我们重点对以下格式的数据和网页进行了排除和合并:
① 多媒体数据:有些网页是图片显示或视频显示,文字标识只是图片简介或视频的名称,大小,拍摄时间、地点等信息和技术的相关性不大。对这类网页只对标题和简介的部分文本进行存取,用于以后的网络文本内容的挖掘。② 过期的数据。Internet数据更新速度非常快,有些网页虽然在Baidu的索引库里找到网页快照,实际已经被更新或删除,链接是无效的。③ Baidu返回值里省略掉的数据:如搜索结果里,Baidu结尾提示:“我们已省略了与显示的83,000条类似的条目。根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索”。对此没有进行深一步的选择。在后续的文本挖掘中,对其设定权重。
4 结语
针对人才是科教兴国的第一战略,本文提出了网络时代下人才引进的方法,运用Web数据挖掘技术,从互联网上获取有价值的人才信息,为高校引进人才提供有力的帮助,由于网站的多样性、复杂性,要从中获取有价值的信息,并非一件容易的事情,需要经过清理、汇总、分析和挖掘一系列环节,做出大量的工作。
参考文献:
[1]K.P.Soman等,数据挖掘基础教程,机械工业出版社,2009.
[2]柯慧燕,Web文本分类研究及应用,武汉理工大学,2006.07.
[3]陈丹、郭伟青,商业科技信息 搜索引擎综述及系统架构设计,商场现代化,2008.1.
[4]丁钰,人才网在人力资源配置中的重要作用[J].人才开发,2008(03):
32-33.
[5]李锋、尹洁、吴洁,基于数据挖掘的高校人才引进与培养策略研究[J].科技进步与对策,2010,27(12).
关键词: 数据挖掘;Web挖掘;人才引进
中图分类号:TP399 文献标识码:A 文章编号:1671-7597(2011)1220123-01
0 引言
互联网的发展给人们提供了很多有价值的信息,能否从Internet上找到适合高校发展的人才信息,Web数据挖掘是从大量的Web文档集合和用户浏览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。Web数据挖掘可以在许多领域发挥作用。
1 数据挖掘相关知识点
1.1 数据挖掘。数据挖掘(Data Mining)即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识的非平凡过程[1]。
1.2 Web挖掘。Web挖掘是指从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含的信息[2]。Web挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析,以实现对Web存取模式、Web结构和规则的分析,以及动态Web内容的查找。
1.3 Web挖掘分类。一般地,根据Web挖掘研究的对象,可以将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘,其中Web内容挖掘和Web使用记录挖掘是Web挖掘的两个主要方面。
2 搜索引擎介绍
2.1 定义
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的信息展示给用户的系统[3]。
2.2 搜索引擎分类
1)全文索引:全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。2)目录索引:目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。3)元搜索引擎:元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
3 Web挖掘技术在人才引进方面的应用
3.1 人才引进。人才引进即人才的招聘与录用[4]。从人力资源管理角度来说,人才招聘与录用的程序包括人才需求预测、制订人才队伍规划(短期、长期)、招聘测试与面试、岗前培训、任职考核、正式聘用上岗[5]。人才引进是一项系统的管理工作,本文人才引进指的从网络中搜索人才的相关信息。
3.2 人才引进信息挖掘流程。本文从互联网上获取相关人才的信息,首先要从成千上万的网站中找到所需要的站点,然后选择站点中的相应页面,再批量获取HTML文档,这些文档可能包含许多无用的东西,需要进行相应的清洗处理。HTML文档是半结构化的,缺乏结构性和组织性,有必要将数据放到关系数据库中集中存储,最后对数据进行分析、挖掘。流程如下所示:Internet→HTML→清洗、处理→数据库→挖掘、分析。
3.3 人才引进相关网页数据源搜集。对Baidu进行如下设定,选择和我们研究需要匹配的人才引进相关的网页:
① 关键字选择:人才引进的英文翻译有“talent introduction”、“introduction of talent”。查询试验结果分别是(查询字词位于标题,英文):“talent introduction”——找到相关结果约900,000个,“introduction of talent”——找到相关结果约1,860,000个,最后确定查询关键字为:talent introduction。② 搜索结果:选择包含完整字句9300000条结果,包含全部字词7360000条结果,但是查询发现后者最后的查询结果实际和我们需要的主题关联度不高,而且会干扰人才引进这一核心,对排序产生一定影响,因此,选择前者:包含完整字句。③ 语言:汉语。④ 文件格式:任何格式。⑤ 日期:任何时间。⑥ 字词位置:查询字词位于网页的标题。作用在于增加搜索结果的精准率,而且试验结果的8160000项基本能表达出总体的特征。⑦ 网域:无限制。⑧ 使用权限:无限制。
对搜索到的网页手动进行下载,分别基本记录了每个网页的URL、文本内容、标题,并对每个国家的前10%的网页提取了源文件,作为后面分析的数据源。
3.4 人才引进相关网页数据源清理。因为Web数据是异质、分布、动态的信息源。数据的清理是直接影响挖掘结果的重要一环,在一般数据挖掘活动中,数据清理一般要占到整个过程的50%到70%。这里我们重点对以下格式的数据和网页进行了排除和合并:
① 多媒体数据:有些网页是图片显示或视频显示,文字标识只是图片简介或视频的名称,大小,拍摄时间、地点等信息和技术的相关性不大。对这类网页只对标题和简介的部分文本进行存取,用于以后的网络文本内容的挖掘。② 过期的数据。Internet数据更新速度非常快,有些网页虽然在Baidu的索引库里找到网页快照,实际已经被更新或删除,链接是无效的。③ Baidu返回值里省略掉的数据:如搜索结果里,Baidu结尾提示:“我们已省略了与显示的83,000条类似的条目。根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索”。对此没有进行深一步的选择。在后续的文本挖掘中,对其设定权重。
4 结语
针对人才是科教兴国的第一战略,本文提出了网络时代下人才引进的方法,运用Web数据挖掘技术,从互联网上获取有价值的人才信息,为高校引进人才提供有力的帮助,由于网站的多样性、复杂性,要从中获取有价值的信息,并非一件容易的事情,需要经过清理、汇总、分析和挖掘一系列环节,做出大量的工作。
参考文献:
[1]K.P.Soman等,数据挖掘基础教程,机械工业出版社,2009.
[2]柯慧燕,Web文本分类研究及应用,武汉理工大学,2006.07.
[3]陈丹、郭伟青,商业科技信息 搜索引擎综述及系统架构设计,商场现代化,2008.1.
[4]丁钰,人才网在人力资源配置中的重要作用[J].人才开发,2008(03):
32-33.
[5]李锋、尹洁、吴洁,基于数据挖掘的高校人才引进与培养策略研究[J].科技进步与对策,2010,27(12).