中文组织机构名识别和消歧技术研究与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:lene817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网已经成为信息社会的知识载体。互联网上汇集了大量的文本,为了获取其中的知识,文本信息的自动处理技术显得十分重要,命名实体识别(NER)是文本信息处理的一个重要的研究方向。其中命名实体是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名以及专有名词等,组织机构名是其中识别的一部分,也是识别难度最大的一部分。遗憾的是,即使识别出命名实体以后,同名异义、异名同义等问题又带来新的挑战。为了能够识别出异名同义的组织机构名,本文在识别的基础上,进一步对命名实体消歧的结果进行优化,命名实体消歧就是对不同语境下的命名实体识别出正确的词义。因此,本文聚焦于研究命名实体识别及对命名实体消歧结果的优化。目前,大量的工作已经对命名实体识别和命名实体消歧技术进行了深入的研究,虽然在准确率上有所提高,但是还是存在着以下问题:1)命名实体识别是首要环节,识别出现问题将会影响后期的消歧结果,在识别过程中,存在着对特征模版重要性的忽视;2)命名实体之间存在着大量的缩写词,由于缩写词构词规律复杂,随意性强,所以缩写词的识别相对困难;3)命名实体消歧目前考虑的只是上下文之间的关系,没有考虑命名实体内部的关系。如果只考虑上下文,而忽视命名实体间的关系的话,这将对消歧的准确率有一定的影响。对此,本文从命名实体识别方面入手,提高识别的准确率,再进一步实现对异名同义命名实体消歧结果的优化。本文的具体工作和成果包括:首先,在已有条件随机场方法的基础上,本文提出了改进条件随机场的方法(ICRF)。针对一般识别算法,对特征模版忽视的问题,本文加大对特征模版的重视程度。在识别出的组织机构名全称中,对超过阀值的识别结果,加入了改进特征模版进行识别,从而提高了识别的准确率,并通过实验表明本文方法的有效性。其次,在组织机构名简称识别过程中,本文提出了基于规则与语义编辑距离的简称识别方法。在已有全称数据集的基础上,本文通过对简称的识别规则进行定义,识别出机构名的简称;对于已经识别出的组织机构名中,我们通过语义编辑距离的方法,识别出全称与简称对,提高了识别组织机构名的准确率,从而在前期奠定很好的基础并且通过实验证明,本文的方法与经典的方法相比,准确率有大大地提高。最后,在已有全称与简称识别的基础上,本文提出了基于简称与全称的命名实体消歧算法。应用之前已有的命名实体消歧算法,加入简称与全称对的识别方法,大大地提高了命名实体消歧中异名同义消歧的准确率,节省了识别的时间,从而解决了只考虑上下文特征而没有考虑命名实体间特征的问题。
其他文献
随着计算机技术的飞速发展,各种信息技术以前所未有的迅猛势态渗透于教育的各个方面,其中主要是使用多媒体技术与传统教学方式进行了整合。信息技术与电工电子课程整合的目的,就
目的:分析我院中药注射剂说明书中关于药物警戒的表述,以指导临床用药。方法:根据《药品说明书和标签管理规定》及《中药、天然药物处方药说明书格式》中有关药物警戒项目对我院
顶岗支教是对师范生进行思想政治教育的新载体,利用顶岗支教的平台可以更有效地实施思想政治教育,而目前在顶岗支教中思想政治教育出现了新的问题。在顶岗支教中提出了进行思
语言和文化密切相关,颜色词作为文化负载词中的重要一类,因受到地理环境、历史传统、民俗习惯、思维方式等多种因素的影响,在中西方文化中的内涵既有相同之处,也存在一定差异
<正> 本章将逐一介绍除近视、远视球面形镜片以外的其它各种隐形眼镜。 第一节散光隐形眼镜 一、定义: 隐形眼镜的内曲面、外曲面或双侧曲面两个相互垂直向的子午线曲率不同