【摘 要】
:
中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。其作为中文信息处理的基础,己经被广泛应用于相关领域。因此,对中文分词的研究具有重要的理论和现实
论文部分内容阅读
中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。其作为中文信息处理的基础,己经被广泛应用于相关领域。因此,对中文分词的研究具有重要的理论和现实意义。本文将重点研究中文分词的词典机制、歧义消除、切分算法等技术。鉴于语言的统计规律性,本文的中文分词算法使用词典和统计相结合的方法。在核心词典的组织方面,考虑到词典查找的时间效率、存储的空间效率、汉语词组的统计规律等特点,我们使用双字Hash索引分词词典机制,仅对词组的前两个字符依次建立Hash索引,构成深度为2的Trie树,词组的剩余字串则按序组成词典正文。歧义消除和未登录词识别是中文分词的两大技术难点,本文重点研究交叉型歧义的检测和消除。本文提出一种新的方法来检测交叉型歧义产生的位置,即将所有候选词条表示成二元切分词图,若原子字符的上方和右方同时不为空,则此处存在交叉型歧义。对于交叉型歧义的消除,则使用双字耦合度和t-测试差相结合的方法来判断是否切分。最后,把所有候选词条以及它们之间的相邻共现概率表示成带权有向无环图,来计算图中始末结点间的最短路径来达到最优分词。实验表明,该中文分词算法在CPU2.0GHz,内存256MB的环境下,切分速度达到35000字/秒,分词准确率达到97.2%,召回率达到93.7%。算法的性能能够满足大部分上层应用的要求。
其他文献
基本公共服务均等化,是扩大公共财政覆盖面,让全体社会成员共享改革发展成果的制度安排,其实质在于政府要为全体社会成员生存、发展和提高担负责任,提供基本的公共产品和公共
<正>环境群体性事件频发的现状唤起人们对于规划和建设项目进行社会风险评估的高度关注。然而现行环评制度及社会风险评估机制都因未能兼顾环境风险及社会风险而无法有效应对
针对目前我国城市环境总体规划在城市规划体系中定位不明确、地位亟待提高以及内容与技术路线欠规范等问题,从城市环境总体规划的法律地位、针对性、核心内容,以及与相关规划
<正>"十二五"期间,受城镇化、节能减排、产业结构调整、环境风险控制、循环经济、低碳发展等诸多宏观政策的影响,我国环保产业将进入重大发展机遇期,准确把握环保产业格局走
21世纪,伴随着社会生产力的快速发展和科学技术的不断进步,人类的生活发生着根本性的变化。从空间角度看,是城市的世纪:城市的发展产生了更高的集中度,深刻影响着人们的生活
强化环评审批前置制度的贯彻落实,是实行最严格环境保护管理制度的必然要求。然而,环评审批前置制度在我国不少省市并未得到严格执行。部分地区在进行工商登记制度改革的过程
青春是一种令人羡慕的资本,凭借旺盛的精力,青年人可以开垦出一片神奇的土地;凭借巨大的潜力,青年人可以出类拔萃,令人刮目。但是最美的样子并不是最容易得来的,在成长的路上
随着框架理论备受研究者青睐,被广泛运用到新闻传播学研究的各领域,国内外运用框架理论做各种实证研究的文章很多,呈现出一种开放、多元的取向,但全面介绍、评析该理论的文献
进入新世纪,“科教兴国”、“人才强国”成了全社会的共识和实现强国梦的必由之路。因此,研究高等学校的人力资源开发与管理,打造一支高素质的师资队伍和管理队伍,充分调动广