结合决策树方法的中文姓名识别

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:wskiqpk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文姓名识别是自然语言处理中专名识别的一个重要的子问题 ,本文将中文姓名的识别过程细分为三个步骤 :抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息 ,在文本中抽取潜在的中文姓名 ,以及其相关的上下文词法、语法和语义特征 ,并将潜在姓名是否是真实姓名的判别看作是两分类问题 ,并利用决策树算法来实现初步判别 ,最后消除初步判别结果中的歧义现象。实验结果表明 ,该方法的召回率和准确率都可达到 90 %以上。
其他文献
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章
目的:分析小儿重症肺炎血小板参数的变化及其临床意义。方法:将150例肺炎患儿分为重症肺炎组和轻症肺炎组,采用全自动血液分析仪测定两组患儿血小板计数(PLT)、血小板分布宽
新课导入是课堂教学的开端。教师要结合教学内容、教学要求,联系学生实际和学校实际,选择科学合理的新课导入方法,使原本枯燥、抽象的数学知识变得生动形象、富有情趣,让学生
在信息技术环境下,家校合作存在的问题是值得去深入思考的。具体表现在:单向灌输多,双向交流少;形式多样,内容单一;缺乏计划性、随意性强。为此,有必要加强家校合作,其主要对
目的 了解纤维支气管镜 (纤支镜 )检查对老年患者血氧饱和度 (Sp O2 )、心率 (P)和血压 (Bp)的影响以及术中氧疗的意义。方法 对 12 0名 6 5岁以上需要行纤支镜检查 (男性
提出了感性工学中分级推论法的细化程序,以此为指导建立农场车设计的应用模型,实现了设计过程中的数据采集和系统分析。应用分级推论法可以把复杂约束分解为约束子问题进行求
稳定性(也称为脆弱性)研究,特别是网络,从简单的网络到大型的计算机网络、通讯系统、分布式系统等等,的稳定性研究已经取得极大的进步,得到了许多很好的结果。对网络设计者来说,如
武黄高速公路路面改造工程中 ,在总结 2 0 0 1年试验路所取得成功经验的基础上 ,首次大面积应用了STRATA系统 ,由于它具有粘弹性高、抗疲劳抗塑性变形能力强、密实、不透水等
运用多元线性回归模型,以中国体育产业的整体及浩沙国际、安踏体育、李宁三家体育公司为研究对象,对影响体育产业经营利润的相关因素进行了分析.结果显示,体育产业的经营利润
<正>饮酒相关性肝病包括酒精性脂肪肝(alcoholic steatosis,AS)、酒精性肝炎(alcoholic hepatitis,AH)和酒精性肝硬化(alcoholic liver cirrhosis,ALC)等一组疾病[1]。重症酒