基于非结构化招聘信息的采集与清洗系统

来源 :湖南师范大学 | 被引量 : 7次 | 上传用户:laofei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展打破了传统地域的限制,企业招聘由线下转移到了互联网上来,涌现了一批大型的在线求职平台,如智联招聘、拉勾网、前程无忧等。但是由于非结构化招聘信息不统一,缺乏一站式采集、提取和清洗方案,求职者难以在杂乱无章的招聘信息中找到合适的信息。对非结构化招聘信息的采集、提取和清洗,形成统一结构化的数据集,已成为一个亟需研究的课题。本文的研究方向是针对IT行业的非结构化招聘信息,进行数据的采集、提取和清洗。论文主要如下安排:(1)非结构化数据采集:简单介绍爬虫技术的发展以及Scrapy框架爬取数据的基本原理,然后利用基于Scrapy框架采集非结构化招聘信息,将该数据存储到Mongo Db数据库。(2)数据提取:利用Aho-Corasiek算法对采集完成的非结构化数据进行关键字的提取,达到将非结构化数据转变成结构化数据,然后将数据重新存储到MongoDb数据库。(3)数据清洗:首先利用SQL语句对结构化数据进行预处理,接着进行清洗。由于现有的基本Skyline算法清洗数据效率低,故本文在基本Skyline算法上进行了改进,先利用改进的Skyline算法对数据进行清洗,最后将清洗过后的招聘信息生成各种二维统计图。系统集成了数据采集、关键字提取和数据清洗三个功能模块,前台展示招聘信息的各种二维统计图,后台完成数据的实时解析与采集、关键字提取、数据清洗以及扩展数据接口等功能。
其他文献
五月湖湘,盎然春意中氤氲着浓浓的喜气。5月8日至10日,应中共中央和胡锦涛总书记邀请访问大陆的亲民党主席宋楚瑜率亲民党大陆访问团一行54人,来湖南进行了为期2天共45小时的
期刊
高效紧凑反激式变换器电源,由新型MAX5201电源控制芯片及其组件设计而成。本文论述该电信电源的设计方法及特点。并提供主要元件参数和相关波形。
宁波市旅游业跨入由比较优势向竞争优势转型的重要发展阶段.为适应建设现代化国际港口城市的战略目标要求,宁波旅游要进一步提升其国际性,培育和发展八大特色旅游产品群,构筑
<正>1卵白蛋白结构卵白蛋白是一种磷糖球蛋白,等电点为4.5,由385个氨基酸组成,分子量为44.5ku,包含约3%的糖基组分。卵白蛋白分子不耐酶解,用链霉蛋白酶水解其晶体,可以生成5
今年以来,欧债危机持续蔓延,外需不足矛盾突出,我国GDP增长不确定因素增多。今年二季度,我国GDP增幅“破八”至7.6g,创12个季度以来的新低,稳增长已成了全社会关注的重要任务。但同
将无腐烂变质的新鲜芒果,通过清洗、去皮、去核和打浆后制备得到相应的芒果汁,按鲜牛奶∶芒果汁=10∶1将二者混合均匀,然后加适量的蔗糖和稳定剂,接着进行杀菌、冷却、接种、
过去10年,电源拓扑发生了翻天覆地的改变。现在的电源都不再需要笨重的50/60Hz的变压器。在传统电源中,这些变压器占体积和重量的主要部分。现在取而代之的是轻巧的变压器,其磁芯
众所周知,中国现在面临着深刻的社会变革,而经济转型、社会转型也在这个过程当中,从长远来看,这是一种必然发生的趋势。
企业的一切活动都是以经济效益的实现为目的的,因此思想政治工作及文化建设在企业中的开展及构建,是实现企业效益的手段之一。新时期企业面对的市场竞争压力不断加大,利润空
一条500 kV线路发生单相永久性接地故障,线路两侧的保护动作情况不一样:一侧单跳单重转三跳,另一侧单跳后再三跳。针对这种情况,对故障录波图和保护装置动作逻辑进行综合分析,