中文机构名识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ding_zh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识别方法,并实现了一个有效的中文机构名识别系统。 本文将中文机构名分为简单机构名和复杂机构名,其中简单机构名仅由一个词组成,结构简单,而复杂机构名则由多个词组成,结构相对复杂。根据两类机构名不同的结构特点采用不同的方法进行识别。 复杂机构名中经常嵌套包含简单机构名,因此采用一个双层模型进行识别。首先在低层采用条件随机场模型(Conditional Random Fields,CRF)识别简单机构名,CRF可以使用更复杂的特征进行训练和推理,它不但能够充分利用上下文信息作为特征,还可以任意添加其他的外部特征,是目前最优秀的序列标注模型之一。实验证明,采用CRF识别简单机构名能够获得较好的性能;然后将低层的识别结果传至高层,辅助进行复杂机构名的识别,最后将两层的识别结果进行合并。本文采用两种方法识别复杂机构名: 一种是支持向量机(Support Vector Machine,SVM)和CRF相结合的方法。即根据复杂机构名的结构特点,将识别分为右边界识别和前部标注,对文本中出现在特征词表中的词,采用SVM判断其是否是机构名的右边界,对确定为右边界的词向前采用CRF进行标注,也就是寻找机构名左边界的过程。在前部标注的过程中加入了候选词的策略,在一定程度上提高了识别精度。 另一种是CRF和可信度模型相结合的方法。首先建立特征词可信度模型和前部词可信度模型,然后针对文本中的每个词分别计算其可信度的大小,并将可信度信息加入到CRF中进行学习,最终获得识别模型。 最后对机构名简称和兼类机构名进行详细的分析。该类机构名的识别涉及到语义层次,单纯采用统计方法无法有效的进行识别,本文根据它们不同的结构特点,制定了有效的规则进行初步的识别。 实验证明本文的识别方法是有效的,针对北大版语料的开式精确率、召回率和F值分别为94.83%,95.02%和94.93%;针对微软版语料的开式精确率、召回率和F值分别为93.24%,82.39%和87.48%。
其他文献
随着网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题之一。新一代网络技术MPLS(Multi Protocol Label Switching)在继承了ATM标签
CTI(ComputerTelecommunicationIntegration:计算机电话集成)计算机技术广泛应用于通讯领域后逐渐发展起来的一门综合技术。这种电信与计算机技术的融合为电信业带来了广阔的
近年来,数据仓库已经发展到能支持企业决策,甚至支持企业合作伙伴和客户的新高度。新一代的数据仓库应用不仅改善了企业战略的形成,更重要地是发展了战略的执行决策能力。ETL
随着半导体制造工艺的进步,功耗问题成为嵌入式设计领域一个新的挑战。研究表明片上存储子系统已成为片上系统主要功耗来源。SPM(Scrach-pad Memory)作为一种片上存储器具有
以基于本体的特定领域需求获取为主要研究内容,系统分析并总结了目前已有的基于本体需求获取方法,得出当前方法的不足是本体为静态一次性构造,缺乏灵活性。针对当前方法中存
数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须
近年来,随着网络规模的飞速发展,传统的IP网络仅提供“尽力而为”(BestEffort)的服务,对IP包传递的可靠性和时延不提供任何保证,这对只要求准确率而对时延没有严格要求的数据业务
高通量实验产生了大量的蛋白质相互作用数据。相互作用已知的蛋白质相互作用网络能为模体对的预测提供参考信息。但是,从蛋白质相互作用网络寻找模体对仍是一个挑战性问题。高
企业信息系统管理对企业的信息化起着至关重要的作用。但是由于系统受管资源往往源于多个厂商,兼容性得不到保证;企业的业务在其发展过程中也会日趋复杂:同时企业在发展的过
近年来,随着终端智能化和云计算的迅猛发展,移动云计算迎来了它发展的一个契机。在移动云计算环境下,如何实现把用户在一个终端尚未完成的任务或该终端不能完成的任务,高效迅