中文自动分词技术的改进与优化研究

来源 :江苏科技大学 | 被引量 : 7次 | 上传用户:fengliufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词技术是中文信息处理领域中一项重要的基础性课题,它对相关领域(如信息抽取、全文检索、数据挖掘、机器翻译、问答系统等领域)的研究有着巨大的推动作用。本文对中文自动分词领域涉及的主要技术进行了比较全面和仔细的研究,包括中文自动分词的词典结构、中文自动分词的分词算法;对中文分词中的难点问题进行了相对深入的研究;最后结合当前热门的搜索引擎技术,讲述了中文自动分词技术在这个领域的应用。本文的主要贡献如下:首先,本文对中文自动分词技术中的词典结构进行了广泛和深入的研究,在综合逐字二分、逐词二分和Trie索引树三种经典词典结构的基础上,又借鉴和学习了众多改进的词典机制,最后提出了一种基于多哈希平衡二叉查找树的分词词典机制。其次,本文在命名实体识别方面进行了重点突破。在中文人名识别上,结合和借鉴现有的研究结果,设计了一种新的分阶段的中文人名识别方法,并给出了具体的实现过程。在中文机构名识别方面,本文在CRF统计模型的基础之上,融入语言学领域的规则和知识,设计和实现了基于CRF和规则的中文医疗机构名识别系统。实验结果显示,封闭测试的准确率和召回率分别达到了91.68%和95.21%,给领域机构名的识别提供了一种切实可行的新思路。最后,结合当今社会对海量信息检索的迫切需求,对中文自动分词技术在搜索引擎领域的应用做了比较详细的介绍,一方面推广了中文自动分词技术,另一方面也为搜索引擎未来的优化和发展做了一个很好的指向。
其他文献
三羧酸循环是生物体普遍存在的一种产能方式,线粒体作为能量工厂正是依赖于三羧酸循环的效能。经典的三羧酸循环包括8步反应,由8种酶催化,分别是柠檬酸合酶(Citrate Synthase
目的探讨研究SPECT肾动态显像在糖尿病患者早期肾损害中的评估价值。方法方便选取于2019年1—12月到该院进行诊治的100例糖尿病患者为研究对象,根据其尿白蛋白排泄率分为正常
南水北调工程是解决天津地区水资源紧缺的重要途径,其中南水北调中线工程是将天津干线输送的长江水调蓄供给到天津市各供水区的供水工程,供水工程主要采用PCCP管的施工工艺。由
实现异构网管系统的集成化管理是当前网管领域的难点,分布计算正日益成为网络管理的一种热点技术。本文以电信网络管理的应用为背景,提出了一个基于CORBA的异构网管系统的集成
我国网络广告进入快速发展期,将形成庞大的市场规模。但是,现行《广告法》及相关法的立法滞后,监管体制、监管人员、监管技术手段等方面的不足,行业自律机制缺陷和司法制度的不完
目的:回顾近年来针灸治疗近视眼的进展。方法:电子检索中国知网(CNK I)、维普中文科技期刊全文数据库(VIP)和万方医药期刊数据库(WF),纳入治疗组采用针灸,或以针灸为主的治疗