基于HMM的中国人英文简历信息抽取方法

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:obzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常生活中,简历的使用率非常高,互联网的迅速发展使得简历的投递方式从以往的纸质投递转变成网上投递。随着国际化程度的提升,在国内英文简历的使用场景也逐渐增多。简历信息抽取是一种具有重要应用价值的文本信息抽取技术,并且对简历数据库的自动优化和管理具有重要应用价值。与外国人书写的英文简历相比,中国人书写的英文简历有特殊的关键字段。本文的目的是从这样的简历中自动提取出关键字段,并通过关键字段抽取出英文简历中的信息。本文利用隐马尔可夫模型建立了一种针对中国人英文简历关键字段进行自动抽取的方法,其中包含三个隐含状态,即“关键字”、“非关键字”和“标点符号”,用于对简历的每个单词进行标注。本文的主要研究内容包括:(1)研究并总结出中国人书写的英文简历特征,通过手动标记训练样本,建立了一个具有3000份中国人英文简历的数据库。(2)利用建立的数据库,对中国人英文简历隐马尔可夫模型进行参数计算和优化,建立了一个中国人英文简历隐马尔可夫模型。(3)研究一种基于隐马尔可夫模型的中国人英文简历关键字段抽取方法,即利用模型为简历自动标记隐含状态,通过关键字段对简历中的目标信息进行抽取。本文提出的方法在一个3000份的中国人英文简历数据库上取得了良好的实验结果,开放实验的正确率和召回率可分别达到85.99%和83.80%,封闭实验的正确率和召回率可分别达到85.11%和86.03%。实验结果验证了该方法的有效性和可行性。
其他文献
近年来,我国农业成就非凡,解决了世界上人口最多国家的基本温饱问题。但同时,农业科技转化率低,生产效率低等代表现代化硬性指标的环节却极大地影响着农业基本面。“科技是第
随着科学技术的发展,国税系统也逐渐跟上科技的发展,运用财务管理系统作为行政平台,便于处理日常的财务数据处理,但该系统采用的是集中数据的算法模式,随着业务数据的不断增
随着电子信息技术的飞速发展以及在多领域的深入应用,多数企业已经进入信息化时代,它们正在利用信息化技术手段开展信息化建设,通过计算机网络技术实现对企业人力资源、科研
伴随着中国娱乐行业的快速发展,票务系统的需求也日趋增加。业务中包含各地大量的剧院和场馆,有的场馆会用一个场馆图多次演出,有的场馆会随演出项目的不同,座位进行不断调整
食品安全是保证人民生活健康、幸福一个重要的指标,但是目前我国食品安全的形势不容乐观,常常发生食品中毒食品卫生方面的问题,因此需要十分重视并对此监督。为能营造一个良
宽带业务是电信运营的重要组成部分,近年来,随着宽带业务在中国的快速发展,宽带业务市场竞争的激烈,旧的运营模式已经无法适应新的市场竞争环境,从而使得宽带运营商在新的市
输电线路覆冰受多种因素影响,发生覆冰时线路荷重增加,严重覆冰会造成断线、倒杆(塔)、闪络等事故,给社会经济造成巨大损失。基于现场监测数据建立输电线路覆冰预测模型,为电
Al-Si-Mg铸造铝合金拥有质轻,流动性好,耐磨性好,热膨胀系数小,强度较高等优点被广泛用于汽车,航空航天等领域,但其力学性能受限于粗大的α-Al枝晶和针片状共晶硅,所以必须进行变质细化处理。传统铝合金细化剂对铝硅合金细化效果欠佳,且没有变质效果,因此本课题开发两种不同类型,颗粒尺寸可控,对亚共晶铝硅合金同时具备变质细化效果的新型孕育剂。本文通过真空电弧熔炼和真空快淬处理分别制备出Al-Ca-B
在国际贸易快速增长的当今中国,港口作业中计算机的普及程度越来越高。由于国际贸易业务量的逐年增长和业务的多样化,像废物原料这种敏感类贸易商品的数量与日俱增。这也使得
随着大数据时代的到来,数字城市、数字星球正在往智慧城市、智慧星球过渡。智慧化需要对资源进行合理配置,在此过程中,在海量网页中获取有用的信息是智慧化重要且具有难度的