中文姓名自动识别系统的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sory520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体或未登录词识别是中文信息处理的基础研究课题,是文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此,研究中文命名实体识别对提高词法分析、句法分析、语义分析乃至中文信息处理的质量有很重要的意义。本文针对现代汉语文本,主要研究人名的自动识别问题,我们在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏按其在真实文本中成为真姓氏的概率对姓氏进行优先级划分,并重点研究了前300个姓氏作普通单字时其上下文用字规律及姓氏的词性规律,将局部二元统计语言模型作为基本框架,设计并实现了一个中文人名自动识别系统。具体地,本文的主要内容如下:本文首先分析了中文人名识别的困难,并对现有的人名识别方法进行了简单介绍和比较;然后建立了人名样本库、姓氏库、人名语料库等在人名识别前所需的语言学资源,并对这些资源进行统计分析的基础上,建立了各种人名用字表、姓氏概率表、分词词典、人名上下文信息表、姓氏用作普通单字时的上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。然后对姓氏按优先级进行分类,并通过3σ法则建立优先级阈值库;利用局部二元统计语言模型对人名识别问题进行建模,并给出各个优先级的姓氏的识别规则。最后,我们设计并实现了一个基于局部二元统计模型的中文人名自动识别系统。实验结果表明,本文提出的人名识别模型能够获得较为满意的结果。对98年1月《人民日报》26日~31日的语料进行的开放测试.在调整阈值参数c的情况下,获得了平均召回率和准确率分别为79.06%、81.16%,部分解决了人名的识别问题。
其他文献
交通运输业是介于社会性生产和消费之间的产业部门,在国民经济体系运转过程中起着纽带连接的作用,是我国的基础产业,部分现代服务业试点企业营业税改征增值税的工作自2013年8
从引入空间投影变换的概念入手,证明了体积之交比为一般的投影不变量,从而将其作为描述物体的度量。通过对基础矩阵进行合适的分解,导出了确定投影变换模型之齐次坐标和投影坐标
随着人民生活水平的提高,市场经济也在不断发展中,而我国东西部地区在发展中也存在不协调的因素,国家对民族地区的财税政策将要如何调整,采取哪些措施,势必影响民族经济的发
中文姓名识别是自动分词的难点之一。本文在基于统计的中文姓名自动识别方法的基础上,引入局部可信度,并建立了姓名构词可信度的评价函数等:同时在姓名识别的过程中引入词法
个性发挥是保证“人性”的重要方式,促进学生的个性化发展是学校教育发展的重要任务,个性化教学成为教育理论研究的重要课题。当前的个性化教学实践因为班级规模、教师能力等
阐述传统测量方法在李克特量表分析中的固有缺陷,即测验依赖与样本依赖,项目间以及项目选项间计分方式的不合理性的基础上;通过研究实例说明Rasch模型中处理这些问题的方法,
针对当前我国大规模的城市更新造成了城市文化与城市特色危机的状况,提出了“城市更新 与城市文化契合”的概念丛片意义,并从五个力“面探讨了二者契合的方法与途径.
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看
随着婚庆旅游影响的不断扩大,越来越多的消费者打破传统婚庆仪式,加入婚庆旅游新兴队伍。本文从婚庆旅游概念着手,分析了当代婚庆旅游者消费心理,并在此基础上提出了婚庆营销
有关海事行政案件管辖权的归属争议不断。立法规定(主要是司法解释)大相径庭,司法实践中的做法无法统一,学者对于管辖权归属于普通法院还是海事法院各执一词。海事行政案件的