论文部分内容阅读
汉语分词是中文信息处理的一项基础性研究课题,其重要性不言而喻。虽然汉语分词相关研究已有20多年,但仍有一部分问题没有得到解决,这也是研究人员至今仍然对该课题进行研究的原因。
目前汉语分词的困惑主要是:1、分词算法要么切分速度快,而正确率较低,如最大匹配法;2、要么切分正确率较高,而切分速度较慢。针对这个两难的问题本文给出了一个基于词平面的一体化切词算法,该方法有效提高了分词的速度,同时保证切分词语的准确率。同时该算法还提出了特定领域支撑系统的方法,有效解决了农业等特定领域词汇切分出错的问题。
基于词平面的一体化切词算法对分词速度的改进主要在三个方面。这三个方面分别为:词典结构、切词算法、最短路径搜索算法。区别于以往的分词词典结构,本研究提出了双数组 Tile 的汉语词典结构,该结构有效提高了一元和二元词典的检索效率,同时降低词典的空间复杂度。在切词算法上,本研究提出了基于局部歧义词网格的切词算法,该算法可以有效过滤掉切分过程中的“碎词”,这样降低了后续最短路径计算的工作量。在最短路径搜索上,区别于以往采用的Dijkstra最短路径搜索算法,本研究采用了基于斐波那契堆的最短路径搜索算法。
关于本研究所提的每部分都有相关对比实验,通过这些对比实验来验证本文所提方法的有效性。最后本研究提出了一些需要进一步深入研究的方向。