简历结构化数据提取方法研究及系统设计

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hanlv512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
简历大多以非结构化文本的形式存在,且数量众多。从此类简历文本中准确提取结构化信息,具有广泛的用途,可以为信息检索、关联分析、数据匹配等诸多上游应用提供基础。简历信息抽取方法大多基于规则和模版的方式,通过人工定制规则对特定的信息进行抽取。在大数据量情况下,此类方法存在成本高、效率低、灵活性差等问题。基于传统机器学习的方法虽然可以一定程度上减少人工成本,但过于依赖特征工程。本文针对这些问题进行研究,采用深度学习的方法构建简历信息抽取模型,并设计了相应的系统。论文工作得到了国家重点研发计划项目“内外贯通的审判执行与诉讼服务协同支撑技术研究”(2018YFC0831300)的支持。本文的主要工作如下:(1)提出了一种融合动态词向量的简历实体标注模型。针对传统的词嵌入存在不能解读一词多义的问题,将动态词向量作为词的表征方式,基于改进的BERT版本提出了BERT(wwm)-BiLSTM-CRF模型用于识别中文简历文本中的实体信息。该方法充分利用了BERT预训练模型的优势,可以直接导入已公开BERT获取具有深层语义特征的词向量,不需要太多数据的训练也能使模型得到更快的收敛。使用BERT-base版本进行实现,通过使用双向长短期记忆神经网络获取句子的语义特征,然后利用条件随机场的约束抽取出文本中的实体。(2)提出了一种结合句子级特征和实体特征的简历关系抽取模型。BERT模型生成词向量后,利用卷积神经网络提取句子级特征,利用实体位置信息得到实体特征,然后引入注意力机制突出实体信息。设置了基线模型Glo Ve-CNN,将提出的BERT-ACNN模型与其他三组模型Glo Ve-CNN、Glo Ve-ACNN和BERT-CNN对比实验。实验结果表明,本文所提出的关系抽取模型与基线模型相比,F1值提高了2.8%。(3)设计了中文简历信息抽取系统。在所提出的方法基础上,设计了简历信息抽取系统的框架,包括输入处理、数据解析等功能,并将抽取后将结果存储到图数据库中,还可以通过D3.js将数据解析结果进行可视化。
其他文献
滚动轴承作为机械装备中最重要的基础零部件之一,其健康状态直接决定着设备及其主机产品的性能、质量和可靠性。对轴承进行可靠的剩余寿命预测,可以及时掌握设备的运行状况以及剩余工作时间,便于工作人员尽早制定维修计划进而提高设备的使用效率、减少经济损失。但是目前基于数据驱动的剩余寿命预测研究方法大多建立在通过多个传感器获取不同的退化特征信息,很少从单一传感器采集的大量数据中提取不同的故障信息。因此,本文针对
对于200km/h及以上客货共线铁路,由于客货速度差大、轴重差别大等特点,轨道系统的振动强度随之增加,从而加速轨道设备的变形和破坏进程,降低轨道结构的使用寿命。随着通过总重的不断提升,还会造成钢轨磨耗加剧、运输风险增加等问题。若采取“动货不见面”的形式完成客货运输,或者旅客列车降速后与货物列车共线运行,则线路能力不能得到充分利用,无法最大限度发挥铁路的经济效益。因此对200km/h及以上客货共线铁
随着互联网的快速发展,人们的生活变得越来越丰富,办公如今慢慢的向自动化发展,人力也在不断地减少,效率也在不断的提高,随之而来的电商平台也孕育而生。然而,如今电子商务平台发展自身复杂性在不断地增加,过去传统的架构模式的缺点也显现出来,这些缺点在不断增加的需求面前变得越来越明显,电子商务平台功能多样化、软件的可维护性和水平扩展性在软件的开发中越来越重,也倒逼着软件开发的框架和技术在不断地创新。为了满足
随着我国经济由快速发展转为高质量发展,商贸流通业逐渐向规模化、信息化、便捷化和国际化方向发展,商贸物流服务也日趋专业化。专业市场与物流之间的互动发展,逐步带动了主要服务于商贸流通业的商贸服务型物流园区发展建设。作为近年来我国重点建设的物流园区类型,构建高效多元的经营发展模式在提高商贸流通业、降低物流成本上发挥至关重要的作用。而现阶段商贸服务型物流园区虽发展迅速但仍存在许多问题,缺乏相关较为成熟的理
场景图生成是计算机视觉领域的重要研究方向,很多的研究学者不断探索和研究针对图像深度理解领域中的问题。为了加深对图像理解的研究,在目标识别、图像字幕、视觉问答以及自然语言处理等研究基础下,场景图生成任务逐渐成为一个当前计算机视觉领域和自然语言处理相结合的热点研究课题。场景图生成任务要求丰富而高级的语义理解,这对机器来说是一个巨大的挑战。为了提升场景图生成模型的质量,本文针对场景信息利用不充分和在数据
随着城市化阶段的快速发展,城市土地扩张吸引了大量人口,带动了交通设施的建设规模,城市交通展现出出行需求快速增长的特征,而高速的发展和与日俱增的交通需求极易出现供需不平衡现象,造成交通拥堵、环境污染等城市交通病。因此在交通治理问题中,人们需要更加注重交通系统内部的协调,同时抓住信息化时代城市交通发展的新机遇,用信息化手段分析挖掘居民的出行特征。交通出行方式的识别是居民出行研究内容的一部分,在以GPS
在新冠疫情和直播行业竞争日益激烈的大背景下,差异化、垂直领域成为了主流直播厂商的核心战略。作者所在的字节跳动直播团队在2020年初开始发力音频类直播,直播K歌作为一种教育成本低、受众广的模式由此诞生。从产品功能的角度来看,本文所提到的直播K歌/KTV歌房系统中,包含9个业务功能,分别为直播K歌资源管理功能、直播K歌歌曲管理功能、直播K歌歌曲演唱功能、直播K歌音效功能、直播K歌听歌功能、KTV歌房资
随着我国货物运输结构调整的稳步推进和铁路货物运输能力的逐步释放,铁路集装箱运输逐渐凸显出铁路运输和集装箱运输的双重优势,愈发受到中国国家铁路集团有限公司的重视。现阶段国内主流铁路集装箱型为20英尺国际标准集装箱,但该箱型在我国内陆地区流通时存在较严重的容积和载重能力浪费,因此20英尺35吨通用集装箱被开发并投入市场,相比于20英尺国际标准集装箱,20英尺35吨通用集装箱具有能够充分利用箱体容积和载
铁是人体内重要的微量元素,也是人体生理环境中最丰富的过渡金属元素。Fe3+和Fe2+在人体的生物过程中起着重要作用,当人体摄入铁离子过多或缺乏时会导致各种疾病。因此,高效、便捷对Fe3+和Fe2+进行选择性识别与检测,具有重要意义。使用荧光探针是一种非常简单有效的金属离子识别方法。含四苯乙烯结构单元的荧光探针,由于具有聚集诱导发光效应而被广泛应用于金属离子的识别当中。本文以四苯基乙烯为原料,设计并
为了应对国外对我国能源的限制,国家大力推动电动汽车的发展,同时大批量的车用动力电池逐渐淘汰,车用动力电池退役后仍然具有大约80%左右的容量,将其筛选分类后可用于对电池性能要求不高的其他领域,可以最大化锂离子电池的全生命周期价值。锂离子电池应用场景广泛,导致退役电池出现较大的不一致性,直接成组使用会造成一定程度上的安全问题。本文以梯次利用电池的筛选与筛选后梯次利用电池的综合性能评估方法为研究内容,主