面向Lucene的中文分词器研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:mmx1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,广泛用于源自邮件、音频、文件、网页、论坛、社交媒体中的数据分析与应用,分词技术是自然语言处理的关键技术之一,是搜索引擎、文字摘要、内容比对等领域的基础技术。在处理人大代表提出的议案建议时,需要归并内容相似的议案建议以及剔除往年已办理过的类似议案建议,以提高政府工作效率和人大代表履职能力,在进行内容分析挖掘时首先就需要分词。目前存在的主要问题是如何根据实际需求设计合适的中文分词器。  开源工具包Lucene被广泛应用在索引与检索项目中实现分词,但随着应用的要求越来越高,依赖于Lucene的分词器已经不能满足实际的需求了,出现了一些开源中文分词器。本文面向人大代表议案建议相似度检测需要,对Lucene的内置中文分词器与开源中文分词器进行对比研究,选择相对优秀的IKAnalyzer分词器作为本文的应用分词器,并提出了改进方法。主要研究内容如下:  (1)比较Lucene内置的几种中文分词器,选择支持中文分词最好的SmartChineseAnalyzer分词器为比较对象之一;  (2)对比分析Paoding、mmseg4j、IKAnalyzer、imdict-chinese-analyzer这四种开源中文分词器,选择IKAnalyzer分词器作为研究对象;  (3)优化IKAnalyzer中文分词器,扩展其词库和调优存储字典树的结构的性能参数实现空间和时间的最优平衡来达到分词效果更好的目的;  (4)将SmartChineseAnalyzer分词器、IKAnalyzer分词器、改进的IKAnalyzer分词器分别与Lucene结合实现分词,对比考察分词效果、分词耗时、CPU资源占用、文本相似度四个方面性能;  (5)将改进的IKAnalyzer分词器应用到人大代表议案建议处理系统,实现了人大代表议案建议的相似度检测,取得了较好的应用效果。
其他文献
随着互联网技术的发展,陆续出现了多种反网络审查的技术。这类技术助长了互联网中不良信息的传播,扰乱社会秩序甚至危害国家安全。基于诱捕路由的网络反审查技术将数据进行加密
航天嵌入式软件是面向航天领域的特殊的嵌入式软件,它的健壮性和可靠性直接关系到航天飞行器的安全。只有对软件进行充分的调试验证,才能保证飞行器的安全。因此,为了提高调试验
近年来,三维模型的应用广泛,衍生出的相关技术也得到关注,但万宗之源仍是三维几何模型的获取。网格模型自身又具有的良好灵活性,便于修改和调整,所以充分利用己有的模型资源,经过适度变形,进而获得符合具体应用需求的新模型成为新的研究方向。为了提高既有模型的利用率,同时摆脱现有三维模型变形技术中对人工选取控制点的依赖,本文基于轮廓线和深度图的三维模型的变形技术开展研究,主要工作如下:(1)三维薄板样条变形技
本文中国科学院云南天文台扫描手绘太阳黑子图像为研究对象,研究图像中黑子面积的自动测量方法,使用计算机自动处理的方式,完成黑子面积的自动计算,并将信息与真实太阳黑子面积信