中文分词和词性标注的在线重排序方法

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户：fxily

【摘要】

：

当前主流的中文分词与词性标注方法将分词和词性标注问题看成是序列标注问题，通常利用局部特征训练判别式模型。该方法取得了很好的效果，但是与词、词性相关的全局特

【作者】

：

孟凡东谢军刘群

【机构】

：

中国科学院计算技术研究所智能信息处理重点实验室，北京100190

【出处】

：

第六届全国青年计算语言学会议

【发表日期】

：

2012年11期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前主流的中文分词与词性标注方法将分词和词性标注问题看成是序列标注问题，通常利用局部特征训练判别式模型。该方法取得了很好的效果，但是与词、词性相关的全局特征并没有被充分的利用。为了更好的处理分词和词性标注的歧义，传统的重排序方法在第一次解码的n_best候选结果集上，利用全局特征进行二次解码，重新选择一个更好的结果。该方法往往需要保留较大的候选结果集，并需要两次解码。本文提出了一种在线重排序方法，将重排序过程融合到一次解码的过程中，充分利用局部和全局特征，在一次解码时利用更多信息以减少搜索错误，选择一个更好的结果。本文在中文宾州树库(CTB5．0)和微软亚洲研究院语料(MSR)上做实验，结果表明，本方法相对于只用局部特征训练的基线系统以及传统的重排序方法都有明显的效果提升。

其他文献

工业建筑接地设计要点分析

期刊

工业建筑接地设计系统设计

论房屋建筑工程中混凝土施工技术的运用

期刊

房屋建筑工程混凝土施工技术运用

乡镇工业职业危害治理的探索

乡镇工业职业危害的治理，已成为困扰职业卫生管理的一大难题。原因为：一是乡镇工业为非国有制企业，国家对非国有制企业的职业危害治理经费开支渠道无明确性规定及专项技改基金；二

期刊