社会网络分析视角下方志古籍知识组织研究--以《方志物产》山西分卷为例

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:zhoulijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪50年代,中国著名农史学家万国鼎主持汇编了一套方志农业专题资料——《方志物产》,共431册、3000余万字,摘抄自全国40多个大中型城市、100多个文史单位的数千部地方志,时间长、范围广,数量大、内容多,价值高、意义重,为农史研究和区域史研究提供了重要的资料来源,具有极高的研究价值。
  目前,《方志物产》数字化整理研究处于起步阶段,无论是在地域范围的选择上,研究方法的应用上,还是文本内容的挖掘上,都需要持续的关注和开拓。融合传统研究方法和现代信息技术,从单省份到多省份到全国范围实现从局部到整体的研究,从单一对象到多重对象的挖掘,更大程度地发掘和利用《方志物产》的价值,更好地为科学研究和社会发展服务。
  本研究立足于信息化社会的大环境和数字人文的大背景下,以《方志物产》山西分卷的电子文本为研究语料,通过智能化识别文中的命名实体,抽取实体之间的关联关系,构建社会网络的数据源,借助社会网络分析方法,实现实体之间关系的可视化展示,从不同的视角根据实际需求对网络进行分析.以便进行知识发现。主要的研究内容如下:
  (1)《方志物产》山西分卷全文数据库建设
  通过梳理《方志物产》山西分卷文本特征,在前人研究的基础上,设计了一套文本规范化的标准,并借助文本处理软件实现全部文本的格式化处理,以此为依据,设计数据库的表格和字段,批量导入文本,完成数据库的建设。数据库中,共包含志书袁、物产分类信息表和物产基本信息表三个表格。其中,志书表的主键志书编号为物产分类信息表的外键,物产分类信息袁的主键分类编号为物产基本信息表的外键,这样不仅保证了信息的完整性,还减少了信息冗余,在保证信息添加、删除、修改、查询等基础操作的情况下,还可以便捷地实现三张表格的联合查询。
  (2)《方志物产》山西分卷所载的物产信息研究
  在系统梳理中国物产分类体系发展历史的基础上,结合《方志物产》山西分卷中物产分类体系的特征,构建一套符合《方志物产》特征的物产分类体系,借助数据库技术和其它信息技术,智能化地实现物产原有分类信息的优化处理,补全原来空缺的物产分类信息,计算物产分类信息智能化处理的效果。
  在物产分类信息智能优化的基础上.以志书名称中包含的地名为物产的产地,并统一成该地名所属的府州的名称,根据物产名称与地名的关系以及物产名称与分类信息的关系,引入地理信息系统技术,对物产的总体分布、不同类别的物产的分布、类别信息的分布等进行地图可视化展示。
  (3)基于条件随机场的《方志物产》山西分卷实体识别研究
  以物产备注信息不为空的所有物产信息为研究语料,通过人工标注的方式,对物产备注信息中蕴含的物产别名、引用的文献、涉及的人物、标明的地名、物产的用途等进行标注。在人工标注的基础上,将研究语料平均分为十等份,每次选取其中九份作为训练语料,另外一份作为测试语料,使用条件随机场模型对训练语料进行学习,分析标注部分的内外部特征,形成特征模板,从而完成识别的模型的构建。用测试语料对识别模型的识别效果进行测试,测试指标为精确率、召回率和调和平均数。
  测试结果表明,条件随机场模型的识别效果与两个因素密切相关:一是语料库规模的大小,条件随机场在大数据环境下能够发挥更好的作用,《方志物产》总体数量比较大,而仅仅山西分卷而言,数量较少,导致模型的学习内容单一,特征模板不完善,测试结果还有待提高:二是语料的人工标注程度高低,漏标、错标的数量越少,程度越高,模型的学习越全面,特征模板与测试语料的匹配程度越高,识别效果也越好。
  (4)基于社会网络分析的《方志物产》山西分卷知识组织研究
  在基于条件随机场模型对《方志物产》山西分卷实体识剐的基础上,根据物产名称与识别结果的对应关系,提取物产名称与物产别名、物产名称与地名、物产名称与人物、物产名称与用途、物产名称与时间等关联关系的数据,形成社会网络分析所需要的数据源。使用社会网络分析相关软件,对数据源中的数据进行图形化的展示,并根据不同的特征和需求,采用不同的视角进行网络分析,主要有三种视角:宏观视角的整体网分析、中观视角的局部网分析、微观视角的个体网分析。
  物产名称与物产别名之间的网络分析。通过点度分析一个物产具有多少个别名,一个别名可以成为多少物产的共有别名:通过线值分析一个别名是否是一个物产的常用别名:通过自我中心网络展示一个物产的别名信息或者一个别名关联的物产信息:通过联通网络发现不同种类的物产具有相同的别名。基于历史的视角分析物产别名的由来以及物产别名网络中发现的现象。
  物产名称与引用人物之间的网络分析。通过点度分析一个物产引用了多少个人物,一个人物被多少个物产引用过:通过线值分析一个人物被一个物产引用的次数:通过个人中心网络展示一个人物被哪些物产引用过,一个物产引用了哪些人物:通过网络维度的转换,提取单一的人物共被引网络,用点度中心度寻找网络中的名人,用间距中心性寻找网络中的中介人物,用接近中心度寻找网络中的最佳信息传播者。
  物产名称与物产用途之间的网络分析。选取物产用途中的药用价值信息为研究对象,首先,以描述药用价值的词作为研究单位,通过点度分析以一个物产具有哪些药用价值,哪些物产具有相同的药用价值:通过线值分析一个物产的哪方面的药用价值记载的最多:通过网络维度的转换,依据药用价值的相同为关联,提取具有单一的物产名称网络,通过间距中心性,探索物产名称的聚类以及中介信息。其次,以描述药用价值的词中包含的字作为研究单位,分析物产因药用价值相似而形成的关联关系。
  物产在时空上的变迁研究。首先,研究物产在时间线上的变迁,根据不同的标准进行时间段的划分,通过局部网视角,以第一个时间段内记载的物产为样例,寻找消失的物产名称,以最后一个时间段内记载的物产为样例,寻找新增的物产名称:其次,研究物产在空间线上的变迁,通过点度分析哪个地区的物产最为丰富,哪个地区的物产最为贫瘠,哪些物产分分布范围最广,哪些物产的分布范围最小;再次.选取“棉”作为研究对象,分析棉在山西省内的引种和传播过程。
  在完成以上研究工作的前提下,本研究仍存在着不足之处,有待于进一步的改进和完善。首先,在数据格式化和语料标注的过程中,都有人工参与,人工操作难免会有出现疏漏的地方,需要不断的检查和完善人工操作的结果:其次,在格式化处理过程仅实现了一部分自动化处理,物产分类信息的智能优化过程中,最后仍有一部分物产的分类信息无法规范,只能通过人工判别,仍需继续探索更加行之有效的办法,实现操作的全自动化处理:再次,本研究的地域范围较小,语料规模较少,仅仅是进行方法的可行性探索,仍需要在更大范围更大规模的语料上进行尝试:最后,本研究得出的结果都是语料内容的客观记载,没有参杂人为的主观因素,目的是为农史研究人员提供资料参考和研究思路,结果的利用仍需要进行专业辨析和考证。
  总之,本研究将文献学、情报学、计算机等技术和方法应用于《方志物产》的内容挖掘中,通过命名实体识别和社会网络分析方法,实现了命名实体自动抽取和时空关联可视化,发现物产分布、物产变迁等方面的相关信息,为方志古籍知识组织提供新的方法和视角,拓展了现代信息技术的应用范围。
其他文献
湿地生态系统是指地球表面水域与陆域在时空上重叠的区域,按历史发生分为自然湿地和人工湿地,其总面积约占全球陆地面积的5%。生态化学计量学在湿地生态保护与恢复管理方面具有重要科学指导意义。然而,相关研究主要围绕自然湿地或人工湿地单独展开,较少将这两种湿地放在一起研究。本文以自然湿地和稻田为切入点,研究植物、沉积物和土壤碳(C)、氮(N)、磷(P)、硫(S)四种元素的生态化学计量关系及其对施肥和水位变化
摘 要:实施校院两级财务管理改革,推进高等学校综合改革,是建设世界一流大学和一流学科的需要。各高校校院两级财务管理改革实践证明,分级财务管理体制有利于提高学院的办学积极性。但由于传统管理体制、高校内部监督考评机制等因素的影响,分级财务管理也产生了一些问题。文章以N大学为例,从组织管理学和制度经济学的角度分析,提出改革的优化路径。   关键词:高校 校院两级 财务管理 优化   中图分类号:F2
期刊
我国地下煤火影响的范围和发生的频率都位居世界首位,而地下煤火的汞排放已成为一个突出的地质灾害,严重威胁矿区周围的生态环境。本研究以内蒙古乌达地下煤火区为研究对象,聚焦大气—土壤生态系统中汞的来源与环境污染过程。通过实地采样测试地下煤火释放烟气、土壤和煤中的汞含量,探明汞在不同环境介质中的时空分布规律,为准确评估煤火汞排放的环境健康危害提供理论依据。本文采用Lumex测汞仪对五虎山矿区地下煤火溢出烟
环境变化(如全球变暖和大气污染)造成大气氮沉降不断增加。过高的氮输入改变了森林生态系统氮素状态和循环过程。其中,树干木质部是树木从根部将水分、营养物质和代谢产物运输到叶片的主要通道。研究木质部液流氮素组分和浓度变化是解析森林树木氮素利用过程的关键信息,能够提高对森林生理生长状态及其如何响应环境变化的诊断评估。基于此,本研究选取京津冀地区人工油松林为研究对象,探讨了原位条件下成年树树干木质部液流的采集方法,并分析了树干木质部液流氮素化学组成和氮稳定同位素的昼夜变化过程及其轴向运输特征。结果表明:
  
摘 要:在高职院校“五育并举”“三全育人”中劳动教育回归的背景下,从高职专业技能教育人才培养角度,分析当下高职劳动教育中存在的问题,研究劳动教育与思政教育在专业技能教育人才培养的内在耦合性。以无人机应用技术专业为例,提出相应对策,将劳动教育、思政教育融入专业技能教育人才培养中,融合协同育人,树立劳动意识,筑牢高职人才培养的底色。   关键词:劳动教育 思政教育 人才培养 无人机   中图分类号:F
期刊
摘 要:专业评估是保证高等教育质量、推动高校加强专业建设的重要手段。文章概述了专业评估的政策背景和会计学专业建设的基本内涵,然后通过“对标”专业自评发现本校会计学专业建设在人才培养目标定位、学分制改革、实践教学和教师实践教学能力等方面还存在较多问题,最后从人才培养方案修订、教学质量提升、青年教师培养等视角提出了加强专业建设的举措。   关键词:专业评估 专业建设 教学质量 会计学专业   中图分类
期刊
摘 要:坚定制度自信是党的十九届四中全会中重要精神之一。制度是一个国家的灵魂支柱和运行依靠,发现并发扬中国特色社会主义制度的优势、坚定制度自信是我国当前重要的任务之一。在2020年初新冠肺炎疫情影响下,我国始终坚持“党的统一集中领导”“以人民为中心”“全国一盘棋”的制度优势,以坚定的信心努力打赢这一场疫情防控阻击战。这场特殊的战役更加突出了坚定制度自信的意义所在,也对高校制度自信教育工作的方式和方
期刊
羊草(Leymus chinensis)是禾草科赖草属植物,根据叶片颜色可分为灰绿型羊草(Grey-green grass,GG)和黄绿型羊草(Yellow-green grass,YG),在中国内蒙古东部草原、东北三省和新疆等地均有分布。羊草是中国的优良牧草,具有蛋白质含量高和适口性好等特点;同时,羊草的地下横走根茎十分发达,能够形成强大的根网,盘固土壤,保持水土。因此,羊草具有重要的经济和生态价值。如何增加羊草的生物量一直是人们关注的重点。羊草从5月开始返青生长到8月末开始枯黄,每年仅有4个月的生长时
鼓翅蝇科Sepsidae隶属于双翅目Diptera沼蝇总科Sciomyzodiea无瓣蝇类Acalyptrat,体小至中型,形似蚂蚁,故又将其称为蚂蚁蝇。全世界鼓翅蝇共记录363种,中国已知60种。鼓翅蝇科昆虫存在典型的性二型现象,且不同种类的雌性个体形态差异较小,因此仅依靠形态学特征鉴定鼓翅蝇存在较大的困难。本研究基于DNA基因序列,并结合形态学特征,对辽宁省鼓翅蝇进行DNA分类研究。
  本研究共获得鼓翅蝇COI基因序列128条,结合NCBI下载10条COI基因序列,138条序列碱基含量结果显示