一种优化的用于中文分词的CRF机器学习模型

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:chcyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前效果最好的中文分词方法是基于字标注的机器学习方法。作为中文分词领域使用最广泛并且效果最好的机器学习模型,条件随机场(CRF)模型进行机器学习的代价很高,非常耗费时间和内存。通过对条件随机场机器学习模型的改进,增加模型导出功能和使其支持预定义Tag,降低了机器学习的代价。使用MSRA 2005开放测试语料库和6词位标注集,以及赵海博士提出的针对6词位的特征模板做实验,实验数据表明,改进后的模型缩短了机器学习的训练时间,提高了分词的速度,对F值也有小幅提高。
其他文献
本文在对Boyer-Moore(BM)算法及其改进的算法BoyerMoore-Horspool(BMH)算法进行分析的基础上,提出了一种更加快速的模式匹配算法-HPMA(High-Speed-Pattern-Matching-Algorithms,高
采用气相色谱法测定分析冬季、春季牛栏山二锅头大茬、二茬在不同时间段原酒及蒸馏过程风味物质含量的变化规律。结果表明,总酸含量冬季是春季的2~3倍,乙酸含量占总酸的75%以
为了提高驾驶安全性及更便捷地访问和控制面向媒体的系统传输网络中的设备.研究了一种基于MOST^25网络的语音接口,并对其进行了硬件设计和软件设计。实验结果分析表明,本文所设
卫星导航系统研制完成后,其系统性能能否达到研制任务的要求,必须对其进行试验和评估,这是导航系统研制过程中的重要环节,是客观评价和检验系统的主要手段。本文讨论了卫星导
以往临床针对婴幼儿重症肺炎多采用抗生素治疗,其在控制感染、缓解患儿病情方面具有一定的作用。然而随着抗生素的广泛应用,其引起的耐药性也受到了临床的广泛关注。近年来研
我国出版业正在积极深化改革,出版和发行单位正在改制,公司法人治理结构日趋完善,组建出版集团、期刊集团、发行集团已成为必然趋势,需求高层次的人才更加紧迫.因此,我们首先
归一化积相关(Nprod)算法是图像匹配中一种常用的算法,其硬件实现精度管理对设计性能存在很大的影响。结合现场可编程门阵列(FPGA)的结构特点,以保证Nprod算法匹配精度和匹配性能为准则,本文从Nprod算法的数学优化、可变字长位数管理和FPGA设计原则三方面开展探讨,并对相关IP核做了仿真验证和对比测试。所得到的研究结论对Nprod匹配算法的实际工程应用具有重要的参考价值。
本文结合某外环桥拼宽施工实例,详细介绍了桥梁拼宽施工的难点及施工工艺,以期对同类施工提供参考借鉴。