基于最大熵模型的中文姓名识别研究

被引量 : 0次 | 上传用户:ADCADC111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理的基础工程,中文姓名的自动识别则是汉语自动分词的难点之一,已经成为制约自动分词系统准确率的一大瓶颈。名实体识别在问答系统、组块分词、信息检索、信息抽取等诸多信息处理领域中有着重要应用。怎样正确地识别和分类名实体是一项关键、困难的工作。 中文姓名识别由于两个原因使其比英文名实体识别困难得多:第一,在中文句子中,词与词之间没有空格,导致分词的精确度不高;第二,中文姓名没有明显的特征可以区分开(如:英文人名第一个字母大写)。这些都对正确地识别中文姓名提出了挑战。 本文结合最大熵模型在中文命名实体识别的研究,提出了一种突破传统的规则与统计相结合的识别方法、专门针对于中文姓名的一种基于最大熵模型的姓名识别方法。即利用了最大熵模型在处理复杂语言模型中的优点,又避免里模型在识别过程中遇到的各命名实体结构差别大而导致的特征选择困难的问题。 文章首先分析了中文姓名的结构特征及其在真实文本中出现的复杂情况,同时,结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息、标记信息和词的构成信息等对中文名实体的影响,给出了适合于中文姓名识别的特征模板,通过对原子特征模板的组合,得到复合特征模板,并以此生成候选特征空间。进而给出特征选择和特征引入算法,对候选特征删选得到有效特征。在特征的选取上,本文还定义了手写特征,手工编写特征可以把一些训练无法得到的特征引入到模型中,增强了识别系统利用专家经验的能力和系统的扩展性。 本文我们采用的自动获取特征模板是一个简单、有效的特征模板,综合了对姓名识别起作用的字信息、词信息和上下文信息。用一个特征模板就能包含整个复杂语言模型的所有信息。另外,该模板具有扩展性强的特点,模板的长度不是固定值,有利于将一些新发现的语言模型信息解构到模板中。同时本文在姓名识别结果的处理上引入了全局信息,提高姓名识别系统的性能。试验结果表明对准确率的提高是很有帮助的。 通过对真实语料的封闭与开放测试,该方法取得了90%以上的召回率和满
其他文献
对辽西北低山丘陵地区实施水土保持工程措施是完善农业生态环境的技术环节之一,通过分析辽西北低山丘陵地区水土保持工程措施在山坡防护、山沟治理、山洪排导、中小型蓄水用
探究玉米幼苗缺氮培养时表现出的专一缺乏症状和缺氮对其生长的影响。采用溶液培养法,设置全素、缺氮对照处理,观察缺氮处理的幼苗症状,测定玉米苗株高净增长量、根冠比、叶
随着人民生活水平的日益提高,选择邮轮度假的游客渐渐多了起来,邮轮旅游经济的增长带动了邮轮制造业开始在我国发展起来,然而我国尚不具备独立设计大型豪华邮轮的能力,为了解
多电机同步控制系统在现代工业中得到了广泛的应用,本文针对交流感应电机同步系统多变量解耦控制问题,在江苏省自然科学基金的资助下,应用神经网络α阶逆系统方法对由PLC控制的
我国在进入到社会主义现代化国家以后,改革开放的春风吹满足够大地,使得人们的生活水平和生活质量都有了明显的提升,也更加注重对于旅游的享受,尤其是对红色旅游的喜爱程度日
中国的经济发展具有突出的地区特点,金融系统作为经济体系的组成部分,不同区域的金融发展必然有明显的差异。本文从部门和整体两个角度考察了中国区域金融发展现状,并由此对
口服抗凝药在心脑血管血栓疾病的防治中发挥了重要作用,新型口服抗凝药包括直接凝血酶抑制剂达比加群,Xa因子抑制剂利伐沙班、阿哌沙班、贝曲西班和依杜沙班,无需监测、相互
针对高校重科研、轻教学的现状,在深入分析国内外教学与科研关系的基础上,探讨了处理好高校科研与教学关系的策略,提出了高校科研促进创新型人才培养的教学模式,以期为高校教
本文通过对我国未成年人犯罪严峻形势的分析,论证了只有对未成年人犯罪实行综合治理方能落实《中华人民共和国预防未成年人犯罪法》所提出的要求,进而探讨了如何对预防未成年
<正>目的总结川崎病(KD)伴严重肝功能损害的诊断治疗经验。方法对一例KD患儿在阿司匹林治疗期间,出现纳差,精神软等症状,予以肝功能等检查,发现血丙氨酸氨基转移酶2255IU/L,
会议