论文部分内容阅读
利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54。在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果。最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.0上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和0.97,说