论文部分内容阅读
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,广泛用于源自邮件、音频、文件、网页、论坛、社交媒体中的数据分析与应用,分词技术是自然语言处理的关键技术之一,是搜索引擎、文字摘要、内容比对等领域的基础技术。在处理人大代表提出的议案建议时,需要归并内容相似的议案建议以及剔除往年已办理过的类似议案建议,以提高政府工作效率和人大代表履职能力,在进行内容分析挖掘时首先就需要分词。目前存在的主要问题是如何根据实际需求设计合适的中文分词器。 开源工具包Lucene被广泛应用在索引与检索项目中实现分词,但随着应用的要求越来越高,依赖于Lucene的分词器已经不能满足实际的需求了,出现了一些开源中文分词器。本文面向人大代表议案建议相似度检测需要,对Lucene的内置中文分词器与开源中文分词器进行对比研究,选择相对优秀的IKAnalyzer分词器作为本文的应用分词器,并提出了改进方法。主要研究内容如下: (1)比较Lucene内置的几种中文分词器,选择支持中文分词最好的SmartChineseAnalyzer分词器为比较对象之一; (2)对比分析Paoding、mmseg4j、IKAnalyzer、imdict-chinese-analyzer这四种开源中文分词器,选择IKAnalyzer分词器作为研究对象; (3)优化IKAnalyzer中文分词器,扩展其词库和调优存储字典树的结构的性能参数实现空间和时间的最优平衡来达到分词效果更好的目的; (4)将SmartChineseAnalyzer分词器、IKAnalyzer分词器、改进的IKAnalyzer分词器分别与Lucene结合实现分词,对比考察分词效果、分词耗时、CPU资源占用、文本相似度四个方面性能; (5)将改进的IKAnalyzer分词器应用到人大代表议案建议处理系统,实现了人大代表议案建议的相似度检测,取得了较好的应用效果。