中文姓名自动识别技术研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:yoclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理的基础工程,中文姓名的自动识别则是汉语自动分词的难点之一,已经成为制约自动分词系统准确率的一大瓶颈。本文突破传统的规则与统计相结合的识别方法而提出了一种基于隐马尔可夫模型的姓名识别方法。 文章首先分析了中文姓名的结构特征及其在真实文本中出现的复杂情况,然后总结出不同的词在构成一个中文姓名时所担当的作用各有不同,由此提出姓名构成角色和姓名识别模式集两个概念;接着推导了一个重要结论:对初步分词之后的句子片段进行角色标注的过程实质上是一个一阶隐马尔可夫链:于是用隐马尔可夫模型的解码算法Viterbi算法来计算最优的角色标注序列。得到最优的角色序列后,再用姓名识别模式集进行简单的完全模式匹配,从而最终识别出中文姓名。该方法的实用性还在于:整个姓名识别过程只需用到某个词作为特定角色的概率以及各角色之间的转移概率,并且这些角色信息完全可以从真实语料库中自动抽取得到,无需人工总结。 通过对大规模真实语料的封闭与开放测试,该方法取得了90%以上的召回率和满意的准确率。实验表明:基于隐马尔可夫模型的姓名识别算法行之有效。
其他文献
随着材料、能源、信息、生命和环境等领域中高新技术的迅猛发展,对新体系、新材料的需求与日俱增,电化学在满足这一需求中扮演着重要的角色。纳米半导体材料作为纳米材料的一
本论文主要做了两方面的工作:一是在溶剂热条件下用两亲配体合成了几种镧系-过渡金属配位化合物,并对它们发光性质做了研究;二是继续本实验室工作,利用在溶剂热和PPh3存在条
近日《国务院关于促进旅游业改革发展的若干意见》正式发布,确定促进旅游业改革发展一系列政策措施,首次提出了科学旅游观,即“三坚持三转变”。要把皖南国际文化旅游示范区建设
报纸
目的:探讨卵巢子宫内膜异位症发病相关因素。方法:通过病例对照研究,对86例卵巢子宫内膜异位症患者和90例良性附件包块患者进行回顾性病例对照分析,对15个相关因素进行单因素
随着社会的发展,科学的进步以及高新技术的应用,对材料的各方面性能提出了越来越高的要求,不仅仅是单方面性能的加强,而且要求尽可能实现多功能。复合材料则是实现该目标的有
目的:通过四川省妇幼保健院5年的科研发展,进一步说明科技是先导,是促进妇幼保健院全面、可持续发展的内生动力,做好科研管理工作意义重大。方法:强化科研意识,强化科研规范
目的:系统评价MTA和Ca(OH)2用于年轻恒牙活髓切断术的临床疗效。方法:计算机检索The Cochrane Library、PubMed、EMbase、CBM、CNKI、VIP和WanFang数据库,查找国内外发表的关于
对佛山市城乡居民食品安全意识进行调查分析,结果表明:佛山城乡居民的食品安全意识存在统计差异:城市居民购物时以关注食品质量内在信息为主,农村居民购物决策以价格为先,多
<正>长江流域和长江三角洲是中华文明的发源地,也是中国现代经济和人类活动最发达的地区。通过对长江三角洲沉积演化的研究来认识长江流域的气候、环境以及人类活动具有十分
会议
舆论在思想政治教育中具有举足轻重的作用。舆论可以使我们掌握人们的思想动向。通过舆论,可以促使人们的思想向我们提倡与褒扬的方向发展。在思想政治教育中,要把舆论作为一