中文文本姓名识别的研究

来源 :东北师范大学 | 被引量 : 4次 | 上传用户:yzl417801753
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理中的一个基础部分,中文信息处理要从三个层面上对中文进行处理:字、词、句。在汉语中,词是最小的语言单位,只有处理好词层面的问题,才能更好地处理句层面的问题,词层面的研究是句层面的基础。词层面的问题最重要的就是中文分词问题,对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,相对来讲,中文的词与词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种技术也就是中文分词。随着中文信息处理的发展,中文分词也得到了很大的发展。出现了众多的算法。根据它们的特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。因为每种方法都有各自的优点和劣势,所以目前单一使用一种方法并不能达到让人满意的效果,而将其中的两三种方法结合起来,优势互补,相对来讲会得到更好的分词结果。对于中文分词,未登录词识别错误尤其是专有名词识别错误是导致自动分词错误的主要原因之一。对所有切分错误进行统计,姓名错误占了将近百分之九十。因此改进姓名的识别准确率能极大的提高分词系统的性能。本文将基于字符串匹配和基于统计两种方法结合起来,先是基于字典的处理,通过改进分词词典,提高分词处理速度。通过基于字典的正反向最大匹配算法对待分词的文本进行处理,再对处理结果进行比较,如果分词结果不同则表明可能存在歧义,就采用基于统计方法进行歧义字段切分,提高了对未登录词语,尤其是人名的识别。解决了一定条件下的人名自动识别问题。
其他文献
本课题以中南大学湘雅附二医院器官移植中心的病例管理信息系统的开发为背景,详细探讨了在医院信息化过程中的病例信息管理网络化、数字化建设方案,基于安全性和数据挖掘的系
移动Ad Hoc网络是一种高度动态的无线网络,路由成为其实际应用中必须解决的关键问题。目前的路由协议在节能上大多表现得不好。由于组成非固定设施网络Ad Hoc网络的移动节点
随着因特网商业化革命和网络技术的不断发展,融合了数据、视频、音频业务的多媒体通信业务得到了飞速的发展,并将成为下一代网络NGN的主流业务之一。软交换作为NGN网络的核心
未知环境下移动机器人缺少先验知识,移动机器人自主学习以提高对环境的适应能力,是实现移动机器人在未知、复杂环境中成功应用的关键。反应式导航是提高移动机器人在未知环境
随着经济的快速发展,车辆在不断增多,人们的工作和出门旅行更加便利,地域也更加广阔。与此同时,交通网络变得越来越复杂,人们的出行更加容易造成迷失、堵塞。基于PC机的导航
现今,互联网已成为社会基础设施的重要组成部分。网络安全不仅威胁到互联网的发展,而且关系到国家安全。DDoS攻击是目前公认的世界难题,是互联网面临的最严重威胁之一。现有
在通信业急速发展的今天,增量市场潜力越来越小,通信运营商发展目标越来越集中于存量市场。伴随着通信行业竞争的日益激烈,提高移动用户稳定性和忠诚度已经成为决定盈利能力的关
随着计算机技术的不断发展,其满足人们需求的能力不断增强,其深入领域也在不断增大。软件复用一直以来被认为是提高软件生产力和解决软件危机的有效途径。通过几十年的发展,
随着社会的进步,嵌入式系统正在悄悄的融入到人们的日常生活中:从多功能手机到MP4娱乐手持设备,从智能家电控制到汽车智能电子控制,生活中的嵌入式系统无处不在。随着嵌入式
视频中运动目标跟踪是计算机视觉领域中最富有挑战性的课题之一,在军事制导、视觉导航、安全监控、智能交通、视频编码、医疗诊断和气象分析等众多领域中有着广阔的研究和应