中文未登录名词短语的识别方法研究

被引量 : 0次 | 上传用户:lilycasey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种计算模型,这种计算模型能够模拟人类语言认知的过程。但是当前计算机的智能水平还远远不能与人类相提并论,困扰其发展的原因有很多,对未登录词的识别是自然语言处理领域亟待解决的几个难题之一。本论文在剖析现有未登录名词短语识别算法基础之上,对中文未登录名词短语,特别是名词短语中的姓名进行研究,提出了一种新的基于词性探测的中文姓名识别算法。同时,结合“支持向量机”这一新的机器学习方法,从不同的角度对中文姓名的识别问题进行了研究。论文提出的算法通过编程实现后,将作为一个重要的功能模块应用于由本实验室自主开发的“中文自动分词系统”中,以提高该系统识别新词的能力。 论文首先对自然语言处理作了简单介绍,提出了中文自然语言处理的特殊性,即汉语的词与词之间不象西方文字那样存在自然分隔标志,因此必须对待处理的中文文本进行自动分词。随着中文自动分词算法研究的深入,制约其发展的几个问题便越来越受到研究者的关注。其中一大难题就是对中文未登录名词短语的识别。 论文主体部分介绍了名词短语中姓名的识别方法,并阐述了将其作为研究中文未登录名词短语识别问题切入点的意义及作用。在分析常见中文姓名识别方法的基础上,指出了现有识别算法的不足,进而提出了基于词性探测的未登录中文姓名识别算法。该算法结合统计语言模型和中文构词规则等信息,能有效识别中文姓名。此外,论文还引入了支持向量机学习方法,从统计学分类的角度探讨中文姓名与非中文姓名在若干特征上的差异,验证应用支持向量机理论识别中文姓名的可行性。 论文最后根据中文姓名识别系统的评价参数对实验数据进行了分析。同时,对全文的工作进行了总结,并提出进一步的研究工作。
其他文献
脑卒中已成为现代社会常见三大死亡原因之一,世界上每死亡3个人,就有一个是心脑血管疾病。在全部急性脑梗死患者中,缺血性脑梗死占约80%。急性脑梗死起病急,致残率、致死率高
随着社会经济的发展与经济结构的不断完善,我国逐渐进入经济新常态,在经济新常态下,经济增速有所放缓,社会结构更加优化完善,各行各业都迸发出新的市场活力,市场竞争加剧,在
本文重点以有色冶炼烟气制酸为研究对象,在分析其工业现状的基础上,了解其发展现状,并分析未来的发展趋势,为今后相关产业的结构调整、技术创新、污染物减排、热能回收、拓宽
<正>"一带一路"借用古代"丝绸之路"的历史符号,依靠中国与沿线国家既有的双多边机制,借助既有的区域合作平台,共同打造政治互信、经济融合、文化包容的利益共同体、命运共同
一 拍卖 冲击国家收藏 艺术拍卖业的兴起,是市场经济发展的必然,是好事。然而从负面效应来看,却给国家收藏艺术精品带来了冲击。 我国的各级美术馆、博物馆,是代表国家收藏文
该文阐述某垃圾转运站建设项目的工程概况、运营期环境影响分析,并提出减缓这些影响的措施。
复合斜拉索是在传统钢斜拉索的外层包裹碳纤维材料,让碳纤维和钢材优势互补,使斜拉索的工程性能得到提高。应用有限元软件ANSYS及MiDAS对复合材料斜拉索的静力性能和振动特性
<正> 一、基本要求 (一)企业在资产负债表日后发生的事项,首先应当区分是属于调整事项还是非调整事项。对于其中的调整事项,应按本准则对调整事项的要求,进行相关的账务处理,
民国时期川西藏族教育中出现的“雇读制”现象起源于清末在川边实施改土归流的过程中,并经历了沉寂期、复苏期、高潮期和衰退期四个发展阶段。“雇读制”有集体雇读和个人雇读
本文以国际私法上的公共政策的运用问题为研究对象,主要是针对目前我国涉外民商事审判实践中对于公共政策如何恰当运用存在的困惑,抱着解决问题的态度开展的研究。文章首先抽象