命名实体识别在方志内容挖掘中的应用研究——以广东、福建、台湾三省《方志物产》为例

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:lianjinling27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国方志类古籍起源早、持续久、类型全、数量多。据《中国地方志联合目录》的统计,仅保存至今的宋至民国时期的方志就有8264种,11万余卷,占中国古籍的十分之一左右。整理和使用方志资料,是我国历史上的一个优良传统。《方志物产》是20世纪50年代,我国著名农史学家、中国农史学科主要创始人之一的万国鼎先生,组织数十人历时6年,人工摘抄方志整理的专题性资料。该方志资料详细记载了物产的名称、性能、作用及分布情况,具有极高的农业科技和经济史料价值。信息技术日益发展的今天,如何利用现代信息技术整理方志资料,降低开发利用的难度,已成为一个十分现实的课题。本文将以《方志物产》为基础,探索方志类古籍整理的新方法,   首先从方志整理的主要内容、基本手段、现有成果三方面论述方志的整理,详细介绍《方志物产》的缘起及其手工整理和数字化整理的过程,分析目前方志整理存在的问题,进而引出本研究的目的和意义;其次从命名实体识别的概念和作用、识别的任务、中文命名实体识别的特点和难点等方面阐述命名实体识别的基本语言学知识,重点讨论命名实体识别的方法,对目前国内外已有的相关研究作总结;然后结合方志类古籍的特点以及《方志物产》中地名的特点,制定《方志物产》地名识别方法.   以广东、福建和台湾三省《方志物产》为例,构建《方志物产》地名识别系统,通过对地名识别结果的统计分析,进行《方志物产》内容挖掘。主要研究内容如下:   (1)《方志物产》地名识别系统的设计和构建。该系统包括全文数据库和地名识别子系统两大功能模块。   全文数据库构建,从三省《方志物产》物产叙述格式的特点出发,借鉴前人分析、提取的统一行文格式,对三省《方志物产》文本格式作规范处理,并以此为据设计数据库结构。全文数据库具有全文检索、关键词检索、聚类检索和数据统计等功能.   物产地名识别子系统,采用规则与统计相结合的命名实体识别方法,结合方志类古籍自身的特点,实现物产地名的自动识别。物产地名识别子系统具有规则管理、地名识别、地名库修正、信息统计四大功能。经测试,该系统能够满足相关研究人员在方志类古籍领域进行古籍检索和知识发现的需要。系统的识别效果可通过规则的不断完善得以逐步优化。   (2)《方志物产》的物产研究   按历史时期、志书类型、地域位置对广东、福建、台湾三省《方志物产》的全部载述物产进行统计和分析。按历史时期统计分析的结果表明:从明代到清代再到民国时期,平均每部志书记载物产的数量呈递增趋势。按志书类型统计分析的结果表明:从通志到府志再到县志,平均每部志书所载物产的数量呈递减趋势。按地域位置统计分析的结果表明:广东、福建、台湾三省《方志物产》记述的不仅是这三省的物产,还包括海南省全部和广西部分地域的物产。   (3)基于物产地名的《方志物产》内容挖掘研究,包括全部正确地名的统计分析、各省物产分布、物产传播和外来物产引进研究。   全部正确地名的统计分析,基于7179条有效地名识别记录。各省《方志物产》地名识别结果分别按省内地名、省外地名、国外地名和宽泛地名分类统计。统计分析的结果表明:相比其他两省,台湾省同外界的物产交流、传播相对更为广泛。   各省物产分布研究,基于相关统计数据,详细分析了广东、福建、台湾三省物产的具体分布情况,并利用ArcGIS软件绘制物产分布专题地图,全面、直观地显示相:关内容。研究结果表明:决定一个地域物产多样性的主要因素有两点,一是该地域的自然因素,包括其地理位置、自然环境和气候条件;二是该地域的人文因素.包括人类对自然资源的开发与利用、外来物产的引进和传播。   各省物产传播研究,基于相关统计数据,详细分析了广东、福建、台湾三省物产的传播概况,同样利用ArcGIS软件绘制专题地图,进行全面、直观的显示。研究结果表明:地区间物产交流和传播的广度随地区间距离的扩大呈递减趋势。距离越远,物产交流和传播相对越少。   各省外来物产引进研究,基于相关统计数据,分析、比较了广东、福建、台湾三省外来物产的引进概况。研究表明:促进物产引进和传播的原因有两点,一是地区间的贸易往来。二是殖民侵略和战争。   (4)基于识别规则的《方志物产》内容挖掘研究,包括全部识别规则的统计分析、物产分布比较研究、物产引进和传播途径研究。   全部识别规则的统计分析,同样基于7179条有效地名识别记录。根据规则表达的含义,将识别规则分为识别物产分布地名的规则和识别物产引进传播地名的规则两类,各类分别加以统计。   物产分布比较研究,基于识别规则的相关统计数据,挖掘出志书对物产原产地、分布地、各地物产孰优孰劣、孰多孰少等相关内容的描述,进而归纳出部分物产的原产地、优产地和高产地。   物产引进和传播途径研究,基于识别规则的分类统计数据,总结出明清时期外来物产引进和传播的主要途径:一是对外贸易,二是朝贡,三是朝廷使者或僧侣传入。   总而言之,本文以农史资料《方志物产》为语料,将信息组织的理论、方法借助于命名实体识别技术实现《方志物产》的地名识别,通过对识别结果的文献计量学分析,进行《方志物产》内容挖掘研究,旨在探索一种基于内容的古籍整理新方法。本研究所做的主要工作和贡献在于:   (1)将命名实体识别相关理论和方法尝试应用于方志类古籍文献,用来识别、挖掘方志文献中的地名;   (2)运用文献计量学方法,分析《方志物产》地名识别结果中的物产名、物产地名和识别规则,获得物产分布、物产引进和传播等相关知识,实现基于内容的古籍数字化整理;   (3)借助GIS专题地图,直观显示《方志物产》中物产分布、物产引进和传播等知识内容,突破传统的文字表达模式,使方志类古籍这一历史文化资源的时空特性得以充分揭示。   命名实体包括人名、地名、组织机构名等,本文重点是对广东、福建和台湾三省《方志物产》中的地名进行识别,其他的诸如志书名称、成书年代、物产名称等命名:实体是文档处理过程中采用机器辅助粗分出来的。今后可通过修改或重新录入、组织规则,实现对其他省份的方志资料,或其他类型的古籍资料进行地名以外的人名、官职名、机构名等其他命名实体的识别研究,以求从多角度挖掘和利用古籍资料,为现代工农业生产和科学研究提供史料参证。
其他文献
出洋士人作为晚清知识分子中一个特殊的群体,最早走出国门接触到西方文明。他们深受中国传统文化熏陶,也带着由这种文化所灌输的宇宙观来到欧洲,并在接触到欧洲天文学后思想观念
本文从滤波和屏蔽两个方面研究了电力系统二次设备面临的电磁兼容问题。理论上分析了滤波和屏蔽技术的基本原理,应用PSpisce建立了滤波电路系统模型。通过绘制插入损耗曲线,分析滤波器在不同源负载阻抗搭配下的滤波性能。建立了滤波器在高频信号作用下的电路模型,分析了分布参数对滤波器滤波效果的影响。由基于有限元法的电磁仿真软件计算屏蔽结构对屏蔽效果的影响,重点研究了开孔形状,分布以及机箱谐振对屏蔽效能的影响
对电能质量监测系统技术进行了研究与论证,对比分析了现有电能质量监测方法的不足和在线监测方法的先进性。从电能质量在线监测系统的系统结构、数据结构、监测内容、分析平台等多方面进行了全面的解析。针对奥运重要电力用户和供电变电站,建立具有网络化、信息化和标准化特点的电网电能质量监测系统,建立统一的、开放的监控和管理基础平台,实现对电网电能质量指标的全天候监控,形成一个高效率的电能质量管理体系。通过电能质量
全国范围内超大规模电力互联网络的建设,电力市场机制的逐步引入等一系列因素都使继电保护面临更多新的挑战。如何利用现有技术提高电网的安全性能,防止由于保护的不正确动作造成长时间、大范围停电等恶性事故的发生,成了很多继电保护工作者关心的问题。PMU的出现将继电保护引入一个全新的领域。与传统用就地测量信息作为保护动作依据的元件保护不同,PMU借助当今成熟的通信与计算机技术,共享广域范围内所有相关电气量与信
生物多样性为人类提供供给、支持、调节和文化服务,维系着人类的生存和发展,然而随着工业化、城市化、农业现代化进程的推进,生物多样性却出现了前所未有的危机。西方传统人与自
我国的能源和资源现状非常严峻。中国按以往的过量消耗资源、能源和污染环境的发展模式已难以为继,必须果断地、迅速地走向十分节约、十分勤俭、尽可能与大自然和谐相处的发展模式。分布式发电技术是一种新型的、很有发展前途的发电和能源综合利用方式。分布式发电技术包括风力发电、太阳能发电、蓄电池、燃料电池、微型燃气轮机等。分布式电源的发展给传统的电力系统注入活力的同时,也给电力系统提出了新的挑战,诸如对网损、潮流
我国先民很早就开始利用植物制造生产和生活用具,而出土的植物遗存尤其是竹简、木牍等为我们研究古代的经济发展和社会变迁提供了大量的实物资料,具有十分重要的价值。植物遗
高灵敏度、高可靠性地实现变频调速笼型异步电动机转子断条初发故障诊断,是一项具有实际意义的研究课题。本文详细推导了计及速度波动和负载周期性波动时转子断条异步电动机定子电流(变频器输出侧电流)信号特征分量的表达式,并分析了转子断条故障特征分量穿越变频器对供电电流(变频器输入侧电流)信号的影响;基于Matlab/Simulink建立了PWM电压型异步电动机变频调速系统仿真模型,控制策略采用空间矢量变换技