基于条件随机场的中文命名实体识别研究

被引量 : 0次 | 上传用户:q912569130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理领域的重要研究方向,是信息抽取、信息检索、信息过滤、问答系统、机器翻译等多种自然语言处理技术的重要基础。由于中文自身的特殊性和复杂性,中文命名实体识别技术的研究要落后于英文很多。为了促进相关自然语言处理技术的发展,研究中文命名实体识别技术具有重要的理论和现实意义。本文主要研究基于条件随机场的以人名、地名、组织名为核心的中文命名实体识别相关技术。中文由于自身的特点,其内部隐藏着大量的可供命名实体识别使用的语义信息,本文首先通过比较语料中特定命名实体上下文中词汇的频度挖掘命名实体指示词,接着深度挖掘命名实体内部结构信息,然后再通过Wiki扩展挖掘到的语义信息以建立外部语义知识库。在此基础上,本文将传统的词特征、词性特征、标记特征以及挖掘到的语义特征作为条件随机场模型的上下文特征进行命名实体识别,并通过实验验证了这些特征的有效性。最后本文设计了一种层次式的中文命名实体识别系统,通过实验表明,对于中文命名实体的识别达到了一定的精度,在1998年1月份《人民日报》语料上进行测试,对于人名、地名、组织名的识别的F值分别达到了93.97%、91.49%、84.67%。此外,对于大规模数据集,采用单机进行命名实体识别耗时较长,本文提出了一种基于Hadoop Map/Reduce的并行化识别策略,实验取得了良好的效果,在我们的集群测试中,识别速度比单机提高了大约14倍。
其他文献
SDH ( Synchronous Digital Hierarchy全称为同步数字体系统)在PDH(Plesiochronous Digital Hierarchy)理论的基础上,规范了在传输过程中数据的帧结构等内容。基于该原理的新
从光伏逆变器输出电流出发,提出一种新型的大功率逆变器母线电容纹波电流预估的理论模型,利用建立的模型,分析不同调制比对母线电容纹波电流的影响。对500k W功率等级光伏逆
随着信息时代的到来,影视工业正以前所未有的速度迅猛发展。在这种情况下,大量最新的影视作品是通过字幕来突破语言限制,向全球各地的观众表现其故事情节和文化内涵。而且,配
动脉硬化是导致心脑血管疾病产生的主要原因之一。近些年随着人们生活方式和饮食习惯的变化,我国动脉硬化的发病率逐年升高,对人们的身体健康和生活质量构成了严重的威胁。因
针对某电厂2×660MW机组空冷岛风筒及下部防护网连接螺栓出现大量断裂和脱落的原因,本文从其产生机理、振动特征和现场处理等方面进行了系统地分析与研究。首先采用有限
澳大利亚是世界主要蔗糖生产与出口大国,在生产管理、产销调控、政策立法及可再生能源的生产和利用等方面积累了丰富的经验,为我国食糖产业发展提供了有益的启示。今后,我国
任何一个国家的金融体系都在整个经济的运行中扮演一个关键的角色。自亚洲金融危机以来,金融体系的安全问题已经成为全世界关注的焦点,各国都在努力构筑金融安全网,存款保险
改革开放以来,我国国民经济持续稳定快速发展、科学技术突飞猛进,全社会购买力不断增强。中国正日益成为全世界的制造中心,中国市场也日益成为全世界瞩目的焦点。与此同时,随着居
<正> 莲,早已为人们听熟知。它象征着崇高、圣洁。北宋诗人周敦颐曾赞誉莲“出污泥而不染,濯清涟而不妖”。那么,莲的始源地在什么地方呢?自古以来,虽没有专史记载,但人们一
世界第一例器官移植手术于1954年在美国实施完成,自此以后,器官移植技术不断取得发展和完善,官移植事业也取得了长足的发展,同时也给数以万计的患者以新的生命。早在1960年,