Web数据挖掘及其在人才引进方面的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:plutuscty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 随着互联网技术的发展,Web已成为当今世界上信息传播的主要途径,通过对Web的挖掘,可从中提取所需的知识,而高层次高素质人才是高等院校立校之本和发展之源,也是综合实力及竞争力的体现,旨在通过研究Web挖掘技术,并将其应用到人才引进过程中,找到人才引进的方法,有助于开展针对性的人才引进工作。
  关键词: 数据挖掘;Web挖掘;人才引进
  中图分类号:TP399 文献标识码:A 文章编号:1671-7597(2011)1220123-01
  0 引言
  互联网的发展给人们提供了很多有价值的信息,能否从Internet上找到适合高校发展的人才信息,Web数据挖掘是从大量的Web文档集合和用户浏览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。Web数据挖掘可以在许多领域发挥作用。
  1 数据挖掘相关知识点
  1.1 数据挖掘。数据挖掘(Data Mining)即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识的非平凡过程[1]。
  1.2 Web挖掘。Web挖掘是指从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含的信息[2]。Web挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析,以实现对Web存取模式、Web结构和规则的分析,以及动态Web内容的查找。
  1.3 Web挖掘分类。一般地,根据Web挖掘研究的对象,可以将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘,其中Web内容挖掘和Web使用记录挖掘是Web挖掘的两个主要方面。
  2 搜索引擎介绍
  2.1 定义
  搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的信息展示给用户的系统[3]。
  2.2 搜索引擎分类
  1)全文索引:全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。2)目录索引:目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。3)元搜索引擎:元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
  3 Web挖掘技术在人才引进方面的应用
  3.1 人才引进。人才引进即人才的招聘与录用[4]。从人力资源管理角度来说,人才招聘与录用的程序包括人才需求预测、制订人才队伍规划(短期、长期)、招聘测试与面试、岗前培训、任职考核、正式聘用上岗[5]。人才引进是一项系统的管理工作,本文人才引进指的从网络中搜索人才的相关信息。
  3.2 人才引进信息挖掘流程。本文从互联网上获取相关人才的信息,首先要从成千上万的网站中找到所需要的站点,然后选择站点中的相应页面,再批量获取HTML文档,这些文档可能包含许多无用的东西,需要进行相应的清洗处理。HTML文档是半结构化的,缺乏结构性和组织性,有必要将数据放到关系数据库中集中存储,最后对数据进行分析、挖掘。流程如下所示:Internet→HTML→清洗、处理→数据库→挖掘、分析。
  3.3 人才引进相关网页数据源搜集。对Baidu进行如下设定,选择和我们研究需要匹配的人才引进相关的网页:
  ① 关键字选择:人才引进的英文翻译有“talent introduction”、“introduction of talent”。查询试验结果分别是(查询字词位于标题,英文):“talent introduction”——找到相关结果约900,000个,“introduction of talent”——找到相关结果约1,860,000个,最后确定查询关键字为:talent introduction。② 搜索结果:选择包含完整字句9300000条结果,包含全部字词7360000条结果,但是查询发现后者最后的查询结果实际和我们需要的主题关联度不高,而且会干扰人才引进这一核心,对排序产生一定影响,因此,选择前者:包含完整字句。③ 语言:汉语。④ 文件格式:任何格式。⑤ 日期:任何时间。⑥ 字词位置:查询字词位于网页的标题。作用在于增加搜索结果的精准率,而且试验结果的8160000项基本能表达出总体的特征。⑦ 网域:无限制。⑧ 使用权限:无限制。
  对搜索到的网页手动进行下载,分别基本记录了每个网页的URL、文本内容、标题,并对每个国家的前10%的网页提取了源文件,作为后面分析的数据源。
  3.4 人才引进相关网页数据源清理。因为Web数据是异质、分布、动态的信息源。数据的清理是直接影响挖掘结果的重要一环,在一般数据挖掘活动中,数据清理一般要占到整个过程的50%到70%。这里我们重点对以下格式的数据和网页进行了排除和合并:
  ① 多媒体数据:有些网页是图片显示或视频显示,文字标识只是图片简介或视频的名称,大小,拍摄时间、地点等信息和技术的相关性不大。对这类网页只对标题和简介的部分文本进行存取,用于以后的网络文本内容的挖掘。② 过期的数据。Internet数据更新速度非常快,有些网页虽然在Baidu的索引库里找到网页快照,实际已经被更新或删除,链接是无效的。③ Baidu返回值里省略掉的数据:如搜索结果里,Baidu结尾提示:“我们已省略了与显示的83,000条类似的条目。根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索”。对此没有进行深一步的选择。在后续的文本挖掘中,对其设定权重。
  4 结语
  针对人才是科教兴国的第一战略,本文提出了网络时代下人才引进的方法,运用Web数据挖掘技术,从互联网上获取有价值的人才信息,为高校引进人才提供有力的帮助,由于网站的多样性、复杂性,要从中获取有价值的信息,并非一件容易的事情,需要经过清理、汇总、分析和挖掘一系列环节,做出大量的工作。
  
  
  参考文献:
  [1]K.P.Soman等,数据挖掘基础教程,机械工业出版社,2009.
  [2]柯慧燕,Web文本分类研究及应用,武汉理工大学,2006.07.
  [3]陈丹、郭伟青,商业科技信息 搜索引擎综述及系统架构设计,商场现代化,2008.1.
  [4]丁钰,人才网在人力资源配置中的重要作用[J].人才开发,2008(03):
  32-33.
  [5]李锋、尹洁、吴洁,基于数据挖掘的高校人才引进与培养策略研究[J].科技进步与对策,2010,27(12).
其他文献
在合理的高度和层数的情况下,框架结构能够提供较大的建筑空间,其平面布置灵活,可适合多种工艺与使用功能的要求。本文在此主要就多层框架房屋结构设计过程当中多层框架类型
在现代房屋建筑中,卷材防水屋面是极其常见的一种屋面形式,在多层和高层建筑中被广泛的应用,本文主要是对卷材防水屋面的施工技术及施工质量做了分析,以供同仁参考。
目前,公路工程施工组织设计管理已难以适应社会经济的发展要求,表现出施工组织设计内容规范片面化、施工组织设计重技术轻管理、编制人员现代管理知识匮乏、现代管理技术应用编
就高铁大体积连续梁工程而言,其施工技术及施工质量等均受到多方面的制约及影响,特别是现浇施工方案。针对这一问题,笔者认为应该立足于各影响因素,并基于综合分析的基础上,探析高
随着社会经济的快速发展,城市化进程的大步向前以及居民生活水平的不断提高,越来越多的民用建筑拔地而起。民用建筑的给排水、暖通在工程建设过程中具有很重要的位置,本文就常见
针对润滑油生产装置蜡罐搅拌器和蜡泵前过滤器存在的缺陷进行改造。采用三窄叶推进式与六叶圆盘涡轮式搅拌器组合结构,形成破碎与推进的环型流态,增强蜡液溶解度;采用旁入式简支
岩土勘测是施工前期进行的一项重要工作,它的准确与否、详实与否,决定了工程建设项目的安全和造价。本文结合岩土工程勘测中存在的技术问题,阑述加强岩土工程勘测的措施。
2011年2月10日,春节过后上班的第二天,市档案局结合机关作风建设在本局机关集中开展了政治理论和业务学习活动。学习活动共四天时间,学习内容为国家档案局杨冬权局长在全国农村
目的探讨置入下腔静脉滤器预防肺动脉栓塞的疗效及并发症的预防经验。方法在DSA下经皮股静脉途径置入下腔静脉滤器32例,观察、随访预防肺栓塞的效果。结果术后随访6-32月,32
目的探索阿德福韦酯治疗慢性乙型肝炎疗效欠佳者改用替比夫定的疗效。方法将32例阿德福韦酯治疗慢性乙型肝炎疗效欠佳者在继续应用常规保肝药物的基础上改用替比夫定600mg口