具有中文人名识别功能的汉语自动分词算法研究

来源 :河北工业大学 | 被引量 : 5次 | 上传用户:czd1986624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,中文信息处理技术已经渗透到计算机应用的各个领域。词处理平台技术是中文信息处理的中间环节,是连接字处理平台和句处理平台的关键环节,其核心难题是分词问题。汉语自动分词是对汉语文本进行自动分析的第一步,是词处理平台的基础,汉语自动分词技术的发展直接影响着中文信息处理技术的发展。本文对汉语自动分词的知识进行了全面的描述,介绍了汉语自动分词的概念和国内外研究与应用的现状。对汉语自动分词技术的原理、方法、评价标准以及基本流程进行了分析和总结。其中重点对汉语自动分词歧义的采集和处理以及中文人名识别所用到的技术和各种算法进行了深入的研究与实验分析,并提出了一些改进思路。文中使用逆向最大匹配法和改进的正向最大匹配法相结合的方法对待切分字段进行双向扫描来采集歧义字段;并在歧义处理过程中做出一些改进,采用规则和统计相结合的方法,运用一些歧义切分的规则及最大概率分词法消解歧义字段;同时采用了统计和规则相结合的方法对未登录词中的人名识别进行了实验,实现了具有人名识别功能的中文分词算法。通过实验数据可以看到,本算法基本可以满足中文信息处理中的实际应用问题。
其他文献
随着石油化工的迅速发展,石油的利用纯度要求的越来越高,需要对石油进行提纯处理。原油从采集到使用,需要很多工序提纯,在初步处理时一般是对原油采集过程中参杂的水分或水蒸气进
通过对人体动作的模仿、学习并最终实现自主行为,是机器人智能的重要研究课题。本文以NAO机器人为平台,研究机器人关节运动的数据驱动方法,主要工作包括以下两方面。根据人机生
随着我国生产工业自动化的飞速发展,电子皮带秤作为一种高精度、高性能的计量设备被广泛用于煤矿、码头、冶金、电力等行业。为了增加产量和能效,往往都是多台皮带秤同时工作。恶劣的现场环境和现场大量重复的记录大大增加了企业的人力成本。而且在电子皮带秤连续的工作情况下,皮带经常会出现跑偏、撕裂、打滑等现象,这不仅影响了电子皮带秤测量的精度,而且严重情况下,还会导致生产现场的安全事故发生。因此,为了降低企业劳动
本论文主要完成了8051 SOC的设计,设计采用VHDL语言进行设计描述,并且在Xilinx公司的FPGA(XC3S400)上通过验证。同时研究SOC相关的设计思想以及IP设计和集成的方法。 论文简
运动估计是运动图像编码的重要内容,它通过去除图像序列之间的时间冗余从而达到压缩的目的,因此,运动估计是运动图像编码过程中最耗时的部分之一。本文提出了一种通过冗余小
网络控制系统(Networked Control System),是关于通信工程(包括有线通信及无线通信)和控制工程两个工程领域的交叉学科。网络化控制是复杂大系统控制和远程控制系统的客观需
声反馈现象是现代扩声系统应用中较为常见的一种声学现象。在大型会场、多媒体教室、音乐表演现场等都需要配备不同的扩声系统,随着嵌入式应用的发展,便携通信设备、助听器等产
汽车防抱死制动系统(ABS)是一种新型的汽车安全装置,其主要功能是在汽车制动时防止车轮抱死,缩短制动距离并保持良好的方向稳定性。ABS是一种强非线性时变系统,必须采用鲁棒性较
直升机旋翼动平衡测试中,旋翼的铰链力矩值是一个反映旋翼是否合格的重要参数。新的平台为了满足多种型号旋翼的测试,该力矩值采集具有大量程、高精度的特点。本文根据铰链力矩
近年来,石油供应紧张和大气环境问题日益引起人们的普遍关注。而传统的燃油发动机汽车所暴露出的弊端却越发凸显,发展新能源汽车已经成为汽车未来发展的趋势,逐步推动着传统汽车