论文部分内容阅读
基于军事领域的命名实体识别的主要任务是识别出军事文本中的人名、地名、武器、组织机构名等专有名称并加以归类,可供指挥员或者指挥机关在作战指挥时可以迅速了解战场态势,及时准确地做出决策的重要依据。近年来,基于军事领域的命名实体识别与提取是提高作战指挥自动化、智能化性能的一项重要研究,通过引入自然语言处理领域的一些相关技术,如自动分词技术、分类标注技术、信息提取技术等等,对非结构化的自由文本形式的军事文本进行分析、处理,从中提取出与作战指挥系统有关的重要信息,再形成计算机能快速、准确识别的结构化数据。本文主要研究在对军事文本命名实体识别任务中,从理论和技术两个层次对必须用到的几项关键技术进行深入地剖析。首先分析研究了分词技术的理论、方法,以军事文本为数据源,针对军事文本的特点,建立了三个匹配词典,采用了正向最大匹配法对军事文书进行分词;其次,设计类别标签,在分词的同时为新切分出的每一个分词单位加上类别标签,为接下来的识别构建少部分的标准标注语料;第三,提出了Tri-Training算法,它是一个半监督的学习框架,在使用该算法过程中,首先使用第二部分得到的标准标注语料,训练得到一个简单的CRF模型,之后对CRF模型进行迭代学习,识别、提取出关键词数据,在此基础上使用基于词典的方法对初步的识别结果进行校正,并将提取出的数据写入结构化的文件中,从而实现了从文本到结构化数据的转换。通过四组实验数据对比表明,采取词典的校正方法能够出色地识别出更多的各类合成词,使识别的准确率(Pre)、召回率(Rec)及F-值都有较大幅度地提高。第四组的方法在继承了基于Tri-Training算法对条件随机场模型进行迭代学习的基础上吸收了基于词典的优点,该方法在军事文本中能够出色地完成命名实体识别仟务,对军事文本语料分类测试,其F-值在军事文本识别中最高达到92.40%,与通用领域中命名实体识别的水平相接近。之后为了更加直观形象地验证此算法的优越性,考虑到面向军事领域的命名实体识别在部队中的主要应用实例是对基于军事文本信息提取的电子地图进行自动标绘,因此研究和设计了文本信息提取系统,而后依托一个信息系统,以电子地图为平台,用标绘功能函数,读取包含标绘数据信息的标识码,通过军标匹配表,建立标识码与相应军标的对应关系,从而实现电子地图自动标绘,通过与机助标图系统对比上看,识别度和准确性更接近手工标图。