汉语自动分词和中文人名识别技术研究

被引量 : 0次 | 上传用户:sniperxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词和命名实体识别是自然语言处理和计算语言学领域中的重要内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实文本处理的迫切需要,对分词和命名实体识别的要求也显得日益迫切,由于它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域的研究,因此,一直引起人们的关注。同其它语言相比,汉语的自动分词和命名实体识别有其特有的难点。目前,汉语自动分词和命名实体识别的处理结果还不尽如人意。本文对汉语自动分词和作为命名实体识别子问题的中文人名识别这两个问题进行了研究,提出了统计方法框架下汉语自动分词和中文人名识别模型。具体的讲,本文做的主要工作是:提出了一种将汉语分词、切分排歧、词性标注和人名识别完整集成的层次框架。首先通过对文本中前位切分字和后位切分字的查找,将汉语自动分词问题归约为对字段的切分问题。在粗切分阶段,基于N-best策略,将最大概率分词方法产生的最佳N个结果作为候选集,作为下一阶段处理的评估对象,目的是尽可能多的覆盖歧义字段,提高召回率。基于语言的词类具有相对稳定的分布这一特征,我们结合了词的词性和词性间的搭配,应用HMM模型对N个粗分结果进行评估,选取最优的一个结果作为分词的中间结果,中文人名的识别在这个中间结果上进行。我们将构成人名的各个特征看作是一种词性,将其纳入整个词性标注的过程中,利用HMM模型对分词的中间结果进行词性标注,最终在词性序列中匹配出符合规则的中文人名。后续处理可得到最终的分词结果和词性标注序列。本模型层次分明,易于理解,实验表明,该模型也是一种行之有效的汉语分词和中文人名识别方法。
其他文献
文章基于区域企业创新要素集聚能力的内涵及构成,建立多层次的区域企业创新要素集聚能力评价模型,应用所建立模型对我国区域企业创新要素集聚能力进行实证分析,结果表明,区域
随着生活水平的提高,汽车的使用也越来越普遍,人们对汽车行驶的安全检测的重视程度也越来越普遍。汽车偏跑是汽车行驶过程中的常见障碍,会加快轮胎的损坏,严重时会使造成爆胎
启事是以公开方式广泛传播信息的文字材料,是人们日常生活工作中使用最为普遍的一个应用文种。启事文辞简短,结构简单,但它的使用情形却颇为复杂。在个人使用时,它的应用范围
税式支出是指政府为了实现一定的政治、经济、社会目的,通过对基准税制的背离,给予纳税人的优惠安排:税式支出管理制度则是实现这种优惠安排的法律规定和规章制度。税式支出
中小企业的发展可以充分满足市场、吸纳劳动力,但是世界经济形势的变化带来的原材料成本上升,国内信贷紧缩政策的施行加剧了中小企业融资的困难。中小企业在南通经济体中占有
本文在系统分析我国工程机械维修现状的基础上,总结了目前工程机械维修中存在的主要问题,结合国内外研究现状,对维修的对策进行了探讨,并分别针对工程机械维修企业和施工企业
目的探究妇科护理风险管理中采用持续性质量改进的临床效果。方法 86例妇科收治患者,以随机分组的方式分成对照组和观察组,各43例。对照组在护理风险的管理中应用一般管理模
原发Ⅰ型艾滋病病毒(HIV-1)感染(PHI)包括急性期感染(AHI)和早期感染(EHI)。AHI通常与急性的“反转录病毒综合征”有关,包括一系列非特异的症状和实验室检测异常。AHI和EHI的
目的探讨微波手术联合药物治疗宫颈糜烂的临床疗效及安全性。方法将160例宫颈糜烂患者随机分为对照组(宫颈微波手术)和观察组(宫颈微波手术联合安达芬栓剂),比较两组治疗的临
玉米蛋白粉是一种蛋白含量较高的原料,但是其蛋白质可溶性差,氨基酸不平衡,利用率较低。采用酵母菌发酵玉米蛋白,利用酵母菌产生的蛋白酶水解玉米蛋白粉中的蛋白,产生可溶性