论文部分内容阅读
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征.这些特征包括单词本身的词法词态特征和上下文信息.利用这些在任何语言的文本上都极易获得的特征,我们采用最大熵分类器构建了一个基准系统.在此基础上,我们首先通过网络资源建立了实体名词典知识库;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料;最后再将这些语料加入训练.实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能.