【摘 要】
:
文本作为地理信息重要的数据来源,其中蕴含着丰富的、多样的地理信息,这些信息对地理资源挖掘与利用具有重要的价值。当前,地理信息的研究逐步从以“空间位置”为中心转向以“地理实体”为中心。文本中地理实体信息是描述地理实体特征、性质等的数据,包括地理实体名称、时间、空间、关系、属性等信息。从文本中挖掘地理实体信息的前提和首要步骤是进行地理实体信息标注,主要通过人工标注或自动标注方式进行。但是,人工标注或自
论文部分内容阅读
文本作为地理信息重要的数据来源,其中蕴含着丰富的、多样的地理信息,这些信息对地理资源挖掘与利用具有重要的价值。当前,地理信息的研究逐步从以“空间位置”为中心转向以“地理实体”为中心。文本中地理实体信息是描述地理实体特征、性质等的数据,包括地理实体名称、时间、空间、关系、属性等信息。从文本中挖掘地理实体信息的前提和首要步骤是进行地理实体信息标注,主要通过人工标注或自动标注方式进行。但是,人工标注或自动标注地理实体信息存在着两个显著的问题,由于标注者的认知差异和缺乏统一的地理实体信息标注体系,导致标注数据存在明显的错标、漏标等问题。由于人工标注过程需要耗费大量的时间,导致标注存在明显的进展缓慢问题。因此,如何高质量、高效率地进行文本中地理实体信息标注,成为当前地理信息资源挖掘与利用亟待解决的基础问题。鉴于此,本文以新闻数据作为数据源,在分析中文文本中地理实体信息描述特点的基础上,完善地理实体信息标注体系,构建可增量学习的地理实体信息抽取模型。针对标注进展缓慢的效率问题,研究地理实体信息半自动标注流程,通过引入迭代的思想,构建面向增量学习模型的迭代算法。同时,研发中文文本的地理实体信息半自动标注系统,实现提高语料库标注质量和标注效率的效果。主要研究内容与成果包括以下几个方面:(1)地理实体信息抽取模型的增量学习方法针对人工标注和自动标注数据时存在漏标、错标等问题,分析文本中地理实体信息的描述特点,完善地理实体信息标注体系。充分顾及规则、机器学习、深度学习模型与增量学习结合的性能,以规则和条件随机场模型实现地理实体名称、时间信息、空间信息的地理实体信息抽取。在此基础上,构建基于规则模型的在线式增量学习和基于条件随机场模型的离线式增量学习,提升未登录词抽取性能,通过可增量的地理实体信息抽取模型实现地理实体信息的预标注。(2)面向地理实体信息抽取模型的迭代算法由于地理实体信息抽取模型对于基准测试集存在较强依赖性,使得人工辅助耗时巨大,导致标注过程缓慢。分析地理实体信息半自动标注流程,引入迭代思想,并以可增量学习的地理实体信息抽取模型为基础,顾及增量学习抽取模型的迭代周期与迭代数据规模,构建面向增量学习抽取模型的迭代算法,并基于实验数据构建的标注语料,测试执行迭代算法后增量学习抽取模型的相关指标,进而提高人工标注的效率。(3)原型系统研发与实验评估在上述研究基础上,研发地理实体信息半自动标注系统,实现数据上传、地理实体信息抽取、增量学习、地理实体信息半自动标注、数据查询与下载等功能。相较于人工标注和自动标注,使用半自动标注在标注效率和标注数据质量均有较大提升。研究表明,采用基于增量学习的地理实体信息半自动标注方式,进行高质量、高效率地标注文本中地理实体信息是可行的。其中,基准测试集在机器学习的训练过程中起到举足轻重的作用,对于地理实体名称、时间信息、空间信息的识别模型具有一定的通用性和可移植性。但是,地理实体的属性信息和关系信息存在着较大的差异,需要针对具体类别构建相应的规则和抽取模型。且在针对其它来源的地理实体在进行半自动标注时,需要对特征模板、句法规则、迭代周期、迭代规模等参数进行相应调整。
其他文献
处于中后期开采阶段的油田采出液含水率普遍较高,开采过程中需获取采出液含水率指标作为油田生产的指导性数据,但管输采出液存在油水分布不均、层间密度差别、流动状态多变等
针对传统地面灌溉土壤水分分布浅层化,无法解决果树根系水分补给路径长且水分利用效率低的林果业用水问题,结合枣树根系分布特征,以地下渗灌管和宁夏灵武长枣树为研究对象,设置不同地下垂直渗灌管长度(L1:10 cm、L2:20 cm、L3:30 cm、L4:40 cm)土壤水分入渗室内模拟试验,以及枣树不同灌溉定额(W1:210 mm、W2:300 mm、W3:390 mm)和地下垂直渗灌管不同埋深(D1
近些年,随着人工智能的飞速发展,越来越多的行业与人工智能有关。在这些行业当中,自动驾驶技术是近几年比较热门的研究技术,而交通标志检测又是无人驾驶领域中的重要组成部分,自然也备受关注。在交通标志检测系统中,首先是系统检测出交通标志,然后向无人车传递交通标志信息,最后无人车根据反馈的信息调整行车决策。在实际场景中,由于无人车采集的图像往往是高分辨率的远景图像,再加上交通标志本身就很小,这使得交通标志目
最近几年来,自动驾驶技术成为各国竞相发展的重要领域。自动驾驶技术主要分为三个部分,一个是感知,一个是决策,另一个是控制,其中最基础的就是汽车的环境感知模块。但是,道路场景的复杂性给汽车环境感知和理解带来了巨大的挑战和困难。现有的道路场景感知系统成本极高,如果使用以计算机视觉为解决方案的道路场景感知技术,会大大降低感知成本。语义分割(Semantic Segmentation)是一种很好的道路场景理
为解决大豆蛋白胶黏剂活性交联剂依赖化石资源的问题,受贻贝蛋白高粘附结构的启发,利用正十二硫醇和超声将酶解木质素芳香环上的甲氧基脱除,使其被酚羟基替代形成邻苯二酚结
现实世界中的很多相互关系都可以用复杂网络的形式进行描述,如社交关系网络、信息通信网络、蛋白质结构网络、论文合著网络等。如何挖掘出这些网络中隐含的信息成为学术研究
随着全球能源紧缺以及发动机尾气排放问题日益严重,推行高效低污染的柴油机势在必行。高压共轨燃油喷射系统的改进与研发至今仍是柴油机发展的重要方向,良好的高压共轨燃油喷射系统能够明显改善柴油机的动力性、经济性、环保性。本文在分析了电控柴油机高压共轨燃油喷射系统的发展历程及国内外研究情况的基础上,运用数值模拟的方法对影响电控柴油机高压共轨喷油器的响应性能的因素进行了分析,并运用遗传算法对喷油器的响应性能进
随着我国舞蹈事业的快速发展,民族民间舞蹈作品的创作越来越丰富。民族民间舞蹈作品中的舞蹈语言大多是通过对民族生活劳作、民间传统活动和风俗习惯提炼而来。这种对原生体态、动作、语汇等进行舞台化加工和发展的过程称之为语言提炼。本文从民族民间舞蹈作品创作的视角出发,以民族民间舞蹈作品创作中的语言提炼问题切入,以个人学位专场作品中的土家族作品为研究对象,通过文献资料搜索、田野调查、比较研究等方法进行分析,在对
A286高温合金抗拉型抽芯铆钉(Pull Type Blind Fastener,PTBF)是航空用抽芯铆钉典型代表之一,其铆接成形质量依赖于抽芯铆钉的核心部件钉套的品质。而采用热处理技术改善钉套
近年来,我国环境空气质量恶化,挥发性有机物(VOCs)污染严重,在室外,VOCs是造成大气污染的重要污染物,在室内,装修涂料释放的VOCs也在时刻危害人们的健康。而在众多治理VOCs气体