论文部分内容阅读
条件概率模型,又称为判别式模型(Discriminative Model),是一类常用的模式识别方法,它相对于产生式模型有很多优点。产生式模型早期被广泛应用到自然语言处理中,包括词性标注、边界识别、名实体识别、句法分析等。从上世纪80年代后期开始,条件概率模型开始引起研究者们的注意,特别是在自然语言处理领域,由于条件概率模型更适合序列标注以及可以使用丰富特征的特点,因此条件概率模型在诸多的应用中,例如词性标注、名实体识别、组块分析、中文分词等,其性能表现都超过了产生式模型。 本文主要针对最大熵模型和条件随机域模型进行了较深入的理论研究。同时讨论了如何利用最大熵模型和条件随机域模型进行中文名实体识别,通常在名实体中,人名、地名、机构名比较难以识别,而数字、日期、时间等类别采用基于规则的方法就可以很好的识别,因此本文的研究重点是针对前三种名实体的识别。具体研究内容包括以下几个方面: 第一,针对最大熵模型在对不完整样本进行分类时表现不好的问题,我们提出了改进原有模型中特征补偿的方式。常用于训练最大熵模型参数的GIS(Generalized Iterative Scaling)算法要求必须满足一个条件:每个事件对不同的输出类别应该包含相同数量的特征。针对这一要求,传统的方法是采用一个全局唯一的补偿特征,然后乘以丢失的特征数。其潜在的思想是认为丢失特征对分类的贡献是等同的。本文提出了一种改进的特征补偿策略,即认为不同的特征类型对不同的输出类别有不同的贡献。通过把改进后的模型在机器学习的标准数据集上和原模型做对比测试表明,修正后的补偿策略能提高模型的学习效率和分类精度。 第二,本文分析了传统最大熵模型中特征表达方式的特点,指出这种特征表达方式存在的两个缺点:首先是没有考虑属性类型对分类的影响,其次,由于增加补偿特征来弥补丢失属性对分类的影响,导致迭代算法的收敛速度降低。为此,我们提出了一种改进最大熵模型特征表达的方法,即在传统模型特征的基础上,引入了属性类型对分类的影响,新模型的特征包含两部分:属性值对分类的贡献和属性类型对分类的贡献。在绝大多数分类任务中,训练集中的样本大多数都是完整的或者不同样本丢失的属性并不相同。基于这个事实,在训练过程中,利用完整样本和在当前属性上有取值的样本训练得到每种属性类型对分类的贡献度,该贡献度通过线形组合和原模型中的特征共同作用于样本的分类。通过在标准机器学习数据集上的实验测试,改进后的特征表达的分类性能较传统最大熵模型的性能有较大提高。 第三,本文将最大熵模型用于中文名实体识别,并在其框架下,定义了多种特征,其中包括上下文特征(N-gram)、词典特征(中文姓氏词典、地名词典)、构词特征(后缀)等。同时,我们在研究过程中发现,在加入词典特征后,某些词的词典特征因为共享权值,而使得权值过度增加,无法正确识别出该词在特定上下文环境中的类别。我们把这种现象称之为“权重偏置”(Weight Bias)。为了解决这一问题,本文提出了通过把特征分为原子特征,然后再对原子特征进行二元组合和三元组合形成一组复合特征的策略。同时为了降低系统的复杂性,避免过拟合的发生,我们采用了基于互信息的特征模板选择方法。 第四,本文采用条件随机域(CRF:Conditional Random Field)模型来进行中文名实体识别,为了考虑长距离约束对名实体识别的影响,我们在CRF模型中融合了触发对的特征。提出了一种基于词方差的选择触发对候选词的方法,并且采用了两种词语相关度的计算方法,即平均互信息和2χ统计量,其中2χ统计量是第一次被用来抽取中文触发对。更进一步对四种主要的概率模型在同等的条件下,在中文名实体上的性能表现作了比较。实验表明在四种概率模型中,由于CRF模型兼有产生式模型和判别式模型的优点,因此其在中文名实体识别上的性能最好。