中文分词和词性标注的在线重排序方法

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户:fxily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前主流的中文分词与词性标注方法将分词和词性标注问题看成是序列标注问题,通常利用局部特征训练判别式模型。该方法取得了很好的效果,但是与词、词性相关的全局特征并没有被充分的利用。为了更好的处理分词和词性标注的歧义,传统的重排序方法在第一次解码的n_best候选结果集上,利用全局特征进行二次解码,重新选择一个更好的结果。该方法往往需要保留较大的候选结果集,并需要两次解码。本文提出了一种在线重排序方法,将重排序过程融合到一次解码的过程中,充分利用局部和全局特征,在一次解码时利用更多信息以减少搜索错误,选择一个更好的结果。本文在中文宾州树库(CTB5.0)和微软亚洲研究院语料(MSR)上做实验,结果表明,本方法相对于只用局部特征训练的基线系统以及传统的重排序方法都有明显的效果提升。
其他文献
乡镇工业职业危害的治理,已成为困扰职业卫生管理的一大难题。原因为:一是乡镇工业为非国有制企业,国家对非国有制企业的职业危害治理经费开支渠道无明确性规定及专项技改基金;二
有定的零形式识别旨在发现框架语义标注语料中需要进行填充的零形式框架元素。本文将该任务分为零形式检测与零形式分类两个子问题,首先基于规则发现语料中所有的零形式,然后使
判断、存在动词是两类特殊动词,在不同语境下有不同的含义。既可以表示判断、存在和领有意义,也可表达复杂的体貌、示证意义。本文以藏语判断动词和存在动词在不同语境下词性的
会议
为了使词语语义相似度计算更加贴近日常习惯,本文提出了融合HowNet概念多层结构和义原复修饰关系的词语语义相似度计算方法。分析利用HowNet概念描述结构。概念多层
会议
在中国文学史上,古典诗歌有着重要的地位。集句诗是一种集引他人成句,凑缀成篇的诗歌创作形式。本文实现了一种基于语义相似度的自动集句对诗的系统。我们考查了大量诗词、对联