半结构化中文简历的信息抽取

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wlq808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
简历是一种常见的半结构化文本,是求职者向用人单位介绍自身基本信息和过去经历的重要载体。随着互联网技术的广泛应用,企业招聘时会收到种类繁多,数量巨大的简历电子文档,依靠人工筛选和储存简历需要花费大量的时间和精力,并且效率低下。因此,研究如何使用计算机快速、准确地从简历中自动抽取出主要的字段内容,并且按照企业需求对抽取结果进行统一结构化是很有必要的。本文从分析半结构化中文简历的结构特征出发,提出中文简历内容按结构层次划分及按内容类划分的思路,给出了简历内容结构描述方法。建立信息抽取词典时,为了解决传统的单独依靠人工建立词典时的繁琐及耗时等问题,研究了基于词法分析的简历关键字提取算法,提出合并简历文本处理的思路,基于N-Gram模型对合并后的简历文本进行全切分,并计算切分所得词条的词内凝固度、词外自由度及词频指标,再根据半结构化简历的特点制定筛选条件及阈值,之后使用基于字符串编辑距离和基于N-Gram模型的字符串相似度计算方法对词典进行扩充。在信息抽取过程中,结合文本信息抽取通用流程和半结构化简历文本的特点,制定了适用于半结构化中文简历的信息抽取方案,研究了基于标题关键字匹配和按文本格式匹配的文本分割算法。在内容识别与抽取时,根据简历内容的强规则性和内容之间的相关性特点,采用基于词典匹配、基于规则和基于统计模型相结合的思路,针对简历中基本信息部分通过建立详细抽取规则进行抽取,针对简历中复杂项信息的抽取,归纳提出了简历复杂项的三条主要特征,按照这些特征使用基于词典匹配和基于文本分块的隐马尔科夫模型相结合的方法对简历内容进行识别和提取,并且对模型训练过程中存在的数据稀疏问题进行数据平滑处理。在前文工作的基础上,本文使用Java编程语言实现了一套中文简历信息抽取系统,该系统有友好的人机交互界面,可以动态管理抽取词典、抽取规则及简历信息,实现了对word、PDF及HTML格式中文简历的自动信息抽取,另外系统还实现了跟随网页简历信息更新本地库的功能。最后,本文利用大量样本对模型参数进行了训练,通过该系统对待抽取简历进行抽取测试,并对准确率和召回率进行了统计汇总,抽取结果令人满意。
其他文献
侵权责任法是规定侵权行为及其法律责任的法律规范的总称。我国侵权责任法作为私权保障法,是通过对受到侵害的民事权益提供救济的方法来保障私权的,也正是通过保障私权来奠定
报纸
教育资源公共服务体系作为"十三五"教育信息化工作的明确目标和主要任务,强调在"国家-省-市-县"各级平台有效互通基础上,实现多级协同和个性服务。平台互联互通是构建教育资源公
石油基高分子材料广泛的应用于各个领域,对人类的生活和国民的经济产生着重要作用,但随着能源材料危机的不断加深以及白色污染的加剧,可持续发展的生物基高分子材料便备受青
义乌以市场带动的工业化道路正在面临经济全球化和国内宏观调控措施的严峻挑战,低小散的状况没有得到根本改观,缺乏国内国际有巨大影响力的企业(集团)。政府要发挥关键性主导作用
习近平总书记站在中华民族伟大复兴的高度,从党的长期执政和社会主义事业长治久安的战略目标出发,提出了“教育是国之大计、党之大计”的重要论断。这一论断是我们党在新时代
目的 :评价置入下腔静脉滤器预防下肢深静脉血栓脱落引起肺栓塞的价值及实行导管溶栓的方法。方法 :3 4例下肢深静脉血栓患者分别经右侧股静脉 ( 2 6例 )或右颈静脉 ( 8例 )
目的:研究两种不同肺复张策略在急性呼吸窘迫综合征治疗中的应用效果。方法:选择我院接诊的60例急性呼吸窘迫综合征的患者设计试验进行研究。按照随机数表法,将患者分为A、B
我国农村公共产品的供给无论在总量上还是在结构上都偏离需求,总体上是低效的,这种状况的出现有深刻的制度原因。改变城乡二元发展战略,深化财政体制等相关制度改革是实现我国农
农田生态系统是协调农村资源与环境、经济与社会发展关系的重要系统,农户生态系统是协调农田生态系统发展的重要基本单元。本文基于生态学理论和能流分析、能值分析、SWOT分
在政府治理过程中,信用监管通过诚实信用的道德蕴含和法律原则逐渐演化成为新型的社会治理手段,具有主体的公权性、行为的外部性、信息的公共性、措施的适当性特征,发挥着确