论文部分内容阅读
文本信息抽取是海量文本信息处理的重要环节,旨在为人们提供从海量联机文本中快速、准确地获取有用信息的工具,是一个具有高度理论和实用价值的研究课题。命名实体识别实现了从众多信息中标识并分离出相关的命名实体,它是信息抽取中最为基本的任务,是语言信息处理技术中的关键基础技术,是正确理解和处理文本信息的基础。进行文本分析时,命名实体识别就成为信息处理的首要任务。另外,命名实体识别的研究还有利于信息检索、机器翻译、文本分类等应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。本文以现代汉语文本中的人名、地名和组织名识别为研究对象开展工作,主要内容如下:1.将条件随机场应用到了中文命名实体识别的研究中。条件随机场作为一种比较新型的机器学习方法,能够克服一些模型中存在的标记偏置问题并避免了严格的独立性假设,在序列标记任务中表现出了良好的性能。2.根据各类命名实体的特点,本文提出了适合于人名、地名以及组织名的特征函数模板,包括各种原子特征模板与组合特征模板,并通过实验验证了各类特征的作用,分析了使用不同的特征模板对识别结果的影响,确定了有效特征。通过将各种反映语言本身规则的特征以及反映训练语料的特征加入到模型中,这些特征有机融合,提高了命名实体识别的性能。3.使用了基于字一级的条件随机场模型进行了命名实体识别实验,并在实验中加入了一定的规则进行结果修正,提高了命名实体识别率。