面向军事领域的命名实体识别及相关信息提取关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kency2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于军事领域的命名实体识别的主要任务是识别出军事文本中的人名、地名、武器、组织机构名等专有名称并加以归类,可供指挥员或者指挥机关在作战指挥时可以迅速了解战场态势,及时准确地做出决策的重要依据。近年来,基于军事领域的命名实体识别与提取是提高作战指挥自动化、智能化性能的一项重要研究,通过引入自然语言处理领域的一些相关技术,如自动分词技术、分类标注技术、信息提取技术等等,对非结构化的自由文本形式的军事文本进行分析、处理,从中提取出与作战指挥系统有关的重要信息,再形成计算机能快速、准确识别的结构化数据。本文主要研究在对军事文本命名实体识别任务中,从理论和技术两个层次对必须用到的几项关键技术进行深入地剖析。首先分析研究了分词技术的理论、方法,以军事文本为数据源,针对军事文本的特点,建立了三个匹配词典,采用了正向最大匹配法对军事文书进行分词;其次,设计类别标签,在分词的同时为新切分出的每一个分词单位加上类别标签,为接下来的识别构建少部分的标准标注语料;第三,提出了Tri-Training算法,它是一个半监督的学习框架,在使用该算法过程中,首先使用第二部分得到的标准标注语料,训练得到一个简单的CRF模型,之后对CRF模型进行迭代学习,识别、提取出关键词数据,在此基础上使用基于词典的方法对初步的识别结果进行校正,并将提取出的数据写入结构化的文件中,从而实现了从文本到结构化数据的转换。通过四组实验数据对比表明,采取词典的校正方法能够出色地识别出更多的各类合成词,使识别的准确率(Pre)、召回率(Rec)及F-值都有较大幅度地提高。第四组的方法在继承了基于Tri-Training算法对条件随机场模型进行迭代学习的基础上吸收了基于词典的优点,该方法在军事文本中能够出色地完成命名实体识别仟务,对军事文本语料分类测试,其F-值在军事文本识别中最高达到92.40%,与通用领域中命名实体识别的水平相接近。之后为了更加直观形象地验证此算法的优越性,考虑到面向军事领域的命名实体识别在部队中的主要应用实例是对基于军事文本信息提取的电子地图进行自动标绘,因此研究和设计了文本信息提取系统,而后依托一个信息系统,以电子地图为平台,用标绘功能函数,读取包含标绘数据信息的标识码,通过军标匹配表,建立标识码与相应军标的对应关系,从而实现电子地图自动标绘,通过与机助标图系统对比上看,识别度和准确性更接近手工标图。
其他文献
数学课堂上的对话,是用数学语言、数学思维去发现问题、提出问题、分析问题、解决问题的对话。数学课堂上的有效对话,应立足于准确的表达、充分的交流、深入的质疑,围绕“了解数
曾几何时。我们发现自己已经渐渐的离不开Email了。因为工作的需要,笔者要和很多认识不认识的人们通过它联系。可是单位的邮箱却不尽如人意,于是网站的免费邮箱成了“宠儿”。可是
用助阳药附子、肉桂对肾上腺再生高血压模型的实验表明,附桂二味或肉桂单味均明显减低高血压大鼠的血压(P<0.01)和尿醛固酮排出(P<0.001)。肉桂显著增高纹状体和下丘脑的脑啡
从四大商业银行推出的网上银行,腾讯推出的微信联合人保财险的手机端支付,淘宝联合天弘基金开发的余额宝,还有包括易付宝、百付宝、快钱等多家第三方支付平台.如今互联网金融
当前高职计算机专业学生就业力开发方面存在总体不力、方法不当、师资不足、氛围不浓等问题。本文从理念、师资、课程、方式、实践、兴趣、服务等维度对高职计算机专业学生的
文章从高压直流电力的发展情况出发,介绍了高压直流电缆现状以及其在实际中的应用。文章对我国高压直流电力电缆的发展中存在的关键性问题和技术难题进行分析,指出问题可能的
蘑菇中的麦角甾固醇经紫外线照射后可产生维生素D2,能被人体吸收利用,是天然维生素D的重要来源之一。为了增进本科生对脂溶性维生素代谢的认识和理解,设计了从香菇中提取麦角
短篇小说《菉竹山房》是吴组缃先生的作品。作品通过对蝴蝶、蝙蝠、菉竹山房等典型意象或象征性环境的细致描写,生动全面地体现了"二姑姑"这一人物性格逐渐扭曲的过程,并用新
研究了快速求解具有时间约束的机械臂轨迹规划问题,提出了一种基于凸规划的轨迹规划方法。该方法针对机械臂轨迹规划中动力学约束非线性强、时间约束不易处理的问题,首先通过变
阅读和写作是初中语文教学的两大重要任务,也是初中语文教学的重点和难点。阅读和写作之间有着十分密切的关系,通过以读促写、读写结合的方式开展语文教学活动是初中语文教学