论文部分内容阅读
在利用条件随机场进行基于词位标注的汉语分词时,特征窗口的宽度是决定条件随机场学习效果的重要参数。针对特征窗口最佳宽度的选择问题,设计了一组特征模板,并选取Bakeoff2005中的测试语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响分词效果的有效上下文范文。通过实验得出以下结论:下文对分词性能贡献要大于上文;影响分词性能的特征窗口的宽度不超过五,以四字或五字窗口为宜。