论文部分内容阅读
中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识别方法,并实现了一个有效的中文机构名识别系统。
本文将中文机构名分为简单机构名和复杂机构名,其中简单机构名仅由一个词组成,结构简单,而复杂机构名则由多个词组成,结构相对复杂。根据两类机构名不同的结构特点采用不同的方法进行识别。
复杂机构名中经常嵌套包含简单机构名,因此采用一个双层模型进行识别。首先在低层采用条件随机场模型(Conditional Random Fields,CRF)识别简单机构名,CRF可以使用更复杂的特征进行训练和推理,它不但能够充分利用上下文信息作为特征,还可以任意添加其他的外部特征,是目前最优秀的序列标注模型之一。实验证明,采用CRF识别简单机构名能够获得较好的性能;然后将低层的识别结果传至高层,辅助进行复杂机构名的识别,最后将两层的识别结果进行合并。本文采用两种方法识别复杂机构名:
一种是支持向量机(Support Vector Machine,SVM)和CRF相结合的方法。即根据复杂机构名的结构特点,将识别分为右边界识别和前部标注,对文本中出现在特征词表中的词,采用SVM判断其是否是机构名的右边界,对确定为右边界的词向前采用CRF进行标注,也就是寻找机构名左边界的过程。在前部标注的过程中加入了候选词的策略,在一定程度上提高了识别精度。
另一种是CRF和可信度模型相结合的方法。首先建立特征词可信度模型和前部词可信度模型,然后针对文本中的每个词分别计算其可信度的大小,并将可信度信息加入到CRF中进行学习,最终获得识别模型。
最后对机构名简称和兼类机构名进行详细的分析。该类机构名的识别涉及到语义层次,单纯采用统计方法无法有效的进行识别,本文根据它们不同的结构特点,制定了有效的规则进行初步的识别。
实验证明本文的识别方法是有效的,针对北大版语料的开式精确率、召回率和F值分别为94.83%,95.02%和94.93%;针对微软版语料的开式精确率、召回率和F值分别为93.24%,82.39%和87.48%。