基于深度学习的简历事件提取研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:flj3156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各大公司接收的电子招聘简历和金融机构发布的电子公告中包含着海量的人员简历信息,这些信息以半结构化或非结构化的形式呈现。简历事件提取能够将简历文本中包含的事件信息提取出来,并以结构化的方式存储,进而挖掘人员之间的复杂关系,构建人物关系图谱,对于人才库的构建、金融机构的投资、决策和发展具有重要意义。针对简历文本存在的特殊问题,将简历事件提取分为三个阶段:事件类型识别、事件元素提取和事件分离。提出基于token分类的BERT-TC(BERT based Token Classification)模型来识别事件类型,将事件类型作为标签进行分类,识别文本中的事件类型,获得每种事件类型对应的tokens的位置信息。提出BERT-TPTC(BERT based Two-Phased Token Classification)模型和MRC-MAN(Machine Reading Comprehension with Max Argument Number)模型来提取元素提取,BERT-TPTC模型将事件元素提取看成是两阶段的token分类任务,融合每种事件类型对应的tokens的位置信息,提高模型性能;MRC-MAN模型通过预测文本中每种事件角色的最大数量,来解决简历文本中事件角色数目不确定的情况。结合简历文本的结构特点和启发式规则,设计了事件分离算法,将相同类型的不同事件分离开来,得到结构化的事件列表。设计实验在人工标注的简历数据集上进行了测试和分析,在事件类型识别实验上F1值达到0.9861,相比于句子分类的方法提升了7个百分点,能够准确地识别出简历中存在的事件类型;事件元素提取实验的F1值达到0.9571,相比于BERT方法提高了0.5个百分点;消融实验结果显示提出的MRC-MAN模型有效提升了MRC模型在事件元素提取上的性能,能够有效解决简历文本中出现多个相同事件的问题,从而验证了所提出的模型和方法能够有效地解决简历事件提取问题。
其他文献
轨迹数据是对移动对象的运动过程进行采样所获得的地理信息序列。随着GPS设备的普及,轨迹数据规模呈爆发式增长,这使得可以通过分析轨迹数据来方便人们的生活。基于轨迹相似度的k最近邻查询是轨迹数据分析的基本运算之一。然而,海量的轨迹数据使得现有的单机算法无法高效地完成查询任务。分布式方案能够利用多台机器的资源去加速查询过程,但目前最先进的分布式方案存在计算资源浪费和局部索引查询效率低的问题。为了解决上述
学位
最短路径问题是路网中一个基本的计算问题,在GPS导航、POI推荐以及路径规划等服务中有着广泛的应用。Dijkstra算法是解决最短路径问题的常用计算算法。给定查询起点和终点,它按照到点距离的远近顺序依次访问其他节点,并在到达终点时终止搜索。该算法简单精确,但是具有很高的复杂度,无法应用于路网这种大规模网络。因此,研究人员们采用基于索引的方法来解决在线搜索开销大的问题,而标签索引表现出了绝对的优势,
学位
深度卷积神经网络的出现使人工智能得以迅速发展,使得人工智能在许多领域发挥出举足轻重的作用,如智能家居、智慧医疗和智能交通等。智能化水平的提升不可避免的要求深度卷积神经网络更加复杂,以应对复杂的应用场景。然而硬件的发展遇到瓶颈,硬件资源提升的速度已无法跟上模型复杂度的增长速度,模型越来越难训练,使得人工智能的入行门槛也越来越高。物联网中的移动终端中存在着丰富的空闲硬件资源,如何利用它们成为了人工智能
学位
在信息技术的高速发展的现代社会,海量的数据常结构化存储于数据库中,在检索数据时,需要用到统一数据库查询语言SQL。但SQL作为有严格语法规则约束的结构化查询语言,需要用户具备数据库和SQL专业知识,使用门槛较高,对非专业用户不友好。近年来,为了提高数据库的信息检索效率、降低用户的使用门槛,使数据库能更好服务于大众,由计算机将自然语言问题直接生成为SQL语句的研究得到了人们的关注,该研究任务被称为T
学位
伴随企业数字化转型与经济数字化发展,交易型数据库管理系统以其高实时响应性能与事务处理安全可靠特性,已越来越成为国计民生行业中数据基础设施的重要组成部分。其运行时若出现不稳定表现或突发崩溃对企业或民生基础设施将产生巨大损失与严重后果。针对此问题,设计实现了一套测试工具,能对交易型数据库的运行时稳定性性能进行测试。测试工具着重增强了干扰场景。针对数据库运行时会受同服务器服务进程物理硬件资源占用的干扰,
学位
现如今,随着各行各业信息化建设的加快和产业规模的扩大,人们为了更加精准高效地获取更多的前沿信息以开拓视野增加认知,都会使用智能问答系统进行查询。智能问答系统是一种基于人工智能的、比传统搜索引擎更为强大和高效的信息检索系统,也是用户使用自然语言和计算机交互的一种重要形式。一个良好的智能问答系统需要丰富的底层语料库参与以便能提供推理决策支持,所以如何从语料库中组织出决策所需的相关信息以帮助系统更好的完
学位
随着大数据时代的到来,使用数据库对海量数据进行管理已经成为多数应用场景中的优先选择,数据存储的安全性也更加重要。数据库加密存储技术的研究和应用极大程度上解决了数据安全的问题,检测数据库的加密功能也成为了评估数据库安全等级的标准要求之一。为了检测数据库的安全等级,需要开发一个数据库加密算法识别工具,识别被测数据库加密接口提供的密码算法,检测数据库产品提供的加密功能是否达到了安全标准的要求。结合加密算
学位
随着云技术的发展,对云上的数据进行分析的需求正在不断提升。在分析型应用中连接查询是最复杂和代价高昂的操作,其往往涉及较多的数据,会带来繁重的磁盘输入输出(I/O),在计算存储分离场景中还会带来繁重的网络I/O,从而降低哈希连接的执行效率。因此,为计算存储分离数据库提供优化的哈希连接功能具有重要意义。从哈希连接的优化入手,面向计算层,提出了采用哈希连接和索引灵活选择的优化方法CEHJ(Calcula
学位
为缓解“停车难”问题,全国各式大型停车场拔地而起。由于停车规模越来越大,而停车场的数字化、智能化的水平低,用户难以快速找到合适的车位,浪费大量时间,降低停车场的使用效率。因此,如何提高停车场的车位使用率和智能化水平、提升用户的泊车体验是迫切需要解决的问题。针对以上问题,设计了基于蓝牙定位的室内停车场车位推荐与导航系统。对武汉的大型室内停车场进行实地考察,了解其建筑结构特点,阐明系统设计的必要性。从
学位
随着互联网技术的蓬勃发展,人们积极地在线上分享自己对于社会事件、公众人物和消费服务等方面的看法和态度。通过分析挖掘来自各个领域的文本评论,情感分析有利于掌握舆情的走向,了解媒体和大众对于热点事件的看法,帮助用户了解商品的口碑以及利于企业商家改进产品和服务。因此,情感分析成为当下的研究热点,具有巨大的价值。为了细粒度地分析用户评论,情感分析任务从简单地判断文本的情感极性逐渐演变成抽取文本的情绪三元组
学位