基于隐马尔可夫模型的中文人名识别研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:jimiewongy2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文词语分析是信息提取的重要环节,其中切分排歧和未登录词识别是此过程的瓶颈。人名实体是未登录词的重要组成部分,因此其识别方法成为本文的研究对象。   本文首先回顾了人名识别的国内外研究情况,并着重分析了中国人名的构成特征。在对现有解决方法进行系统分析的基础上,围绕基于隐马尔可夫模型的角色标注方法进行中文人名识别的方法展开研究。论文所采用的基本方法是:(1)利用N-最短路径算法进行词语粗分;(2)在前N种最优切分结果的基础上,借用Trie树结构组织的常用人名库,进行快速入名匹配;(3)基于隐马尔可夫模型对词语进行角色标注,并通过模式匹配进行未登录入名识别;(4)设立一定的规则,对结果进行优化筛选。   本文的贡献在于:(1)将一元N-最短路径粗分算法改进为二元算法,同时进行了数据平滑处理,提高切分的准确性;(2)在词语粗分的基础上,利用常用人名库辅助人名识别过程;为避免人名匹配所需的大规模时间和空间消耗,本文采用Trie结构对人名进行线性重组,实现快速检索匹配,并提高人名识别的准确率和召回率;(3)实现对入名及其简称进行对应关系发现的功能。即通过设立若干规则,对建立此种关系进行了初步尝试。用于今后合并同一人物的不同称谓,为挖掘人物行为及关系莫定基础。
其他文献
本文从田径教学和田径训练两个层面思考田径体育教学中如何运用迁移规律,阐述了迁移规律与之相结合的方法和途径,力求为田径教学和训练提供一些自己的浅见拙知.
中图分类号:G832 文献标识:A 文章编号:1009-9328(2017)03-000-02  摘 要 竞技体操的专项特征对运动员力量水平提出了较高要求,主要表现在全面性与动作对绝对力量的需求两个层面。本研究通过文献资料法、访谈法、逻辑分析等研究方法,对体操运动员需要的多种力量能力内在联系进行探讨,通过挖掘其内在联系,提高不同力量训练的效果,促进不同力量能力协调发展。通过研究发现体操各项目中的不
体育训练是提高学生身体素质的主要手段,在高校田径运动员的训练中,如何保证训练质量与训练效率,是教练员需要重点研究的问题.跳绳作为一种简单且有效的运动项目,其在高校田
皮划艇作为一项水上运动,分为静水和激流两个项目,在人工湖泊或者自然湖泊中进行的竞技比赛通常被称为静水项目,而在河道水流湍急处进行的竞技比赛通常被称为激流项目.本文对
二十世纪九十年代,随着知识经济的出现,学术界对知识管理的研究开始兴起。在知识管理研究的热潮中,如何有效的实现企业内部的知识共享成为摆在学者面前的难题。近年来,社会网
学位
中图分类号:G861 文献标识:A 文章编号:1009-9328(2017)03-000-02  摘 要 为调查我国不同地区制约200米自由泳发展因素,为我国发展200米自由泳提供建设性意见,本文通过文献资料法、问卷调查法对我国3不同地区150名200m自由泳爱好者和15名游泳教练进行了问卷调查。得到研究结果:(1)我国不同地区200m自由泳爱好者男女比率不同,每月参加的次数不同,男性较多。(2)
期刊
本文以项群训练理论为理论基础,对项群训练理论在击剑教学训练的影响和作用进行归纳分析.为提高击剑的教学训练质量提供参考和理论依据支撑.
西班牙职业篮球甲级联赛(ACB)是除NBA以外发展较为迅速、影响力较为广泛的联赛,它的成功离不开良好的联赛运行机制.本文对西班牙职业篮球联赛运行机制中的目标机制、市场机制
档案馆是国家的科学文化事业机构,是永久保管档案史料的基地,它普遍存在于各个文明国家。蒙古与中国属于友好邻邦,有着相似的历史背景与自然条件,两国档案馆的发展与建设也具