论文部分内容阅读
中文自动分词技术是中文信息处理领域中一项重要的基础性课题,它对相关领域(如信息抽取、全文检索、数据挖掘、机器翻译、问答系统等领域)的研究有着巨大的推动作用。本文对中文自动分词领域涉及的主要技术进行了比较全面和仔细的研究,包括中文自动分词的词典结构、中文自动分词的分词算法;对中文分词中的难点问题进行了相对深入的研究;最后结合当前热门的搜索引擎技术,讲述了中文自动分词技术在这个领域的应用。本文的主要贡献如下:首先,本文对中文自动分词技术中的词典结构进行了广泛和深入的研究,在综合逐字二分、逐词二分和Trie索引树三种经典词典结构的基础上,又借鉴和学习了众多改进的词典机制,最后提出了一种基于多哈希平衡二叉查找树的分词词典机制。其次,本文在命名实体识别方面进行了重点突破。在中文人名识别上,结合和借鉴现有的研究结果,设计了一种新的分阶段的中文人名识别方法,并给出了具体的实现过程。在中文机构名识别方面,本文在CRF统计模型的基础之上,融入语言学领域的规则和知识,设计和实现了基于CRF和规则的中文医疗机构名识别系统。实验结果显示,封闭测试的准确率和召回率分别达到了91.68%和95.21%,给领域机构名的识别提供了一种切实可行的新思路。最后,结合当今社会对海量信息检索的迫切需求,对中文自动分词技术在搜索引擎领域的应用做了比较详细的介绍,一方面推广了中文自动分词技术,另一方面也为搜索引擎未来的优化和发展做了一个很好的指向。