数字人文视域下历史报纸资源语义化知识组织研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ycf0319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
历史报纸资源是“补史料之阙,正史书之误”的最佳底本,是世界文明的知识宝库,也是信息传播的重要载体,全方位记载了中国社会的巨大变革,承载着时代印记,是研究社会史、政治史、经济史、文化史和新闻史的重要信息来源。习近平总书记强调“中华民族优秀传统文化是中华民族的突出优势,是我们最深厚的文化软实力,推动中华优秀传统文化创造性转化和创造性发展,是学术工作者应当肩负的文化使命”。历史报纸作为中华优秀传统文化遗产,其繁荣发展彰显了社会文化内容形式及传播媒介的更迭,映射了社会诉求及思想观念的动态衍变,其价值亟待挖掘和探索。尤其是随着数字人文浪潮的涌动,历史报纸作为珍贵的人文史料资源在技术赋能下更能发挥其价值和作用。近年来,大数据和人工智能技术不断进步,知识组织已不仅局限于物理层面的资源外部属性特征,而是深入到认知层面的知识内容单元,以知识元形式表征知识。知识元是知识的最小控制单位,是构造知识系统的核心,通过挖掘知识元之间的语义关联关系,实现知识增值,提升知识组织效率和服务水平。马费成教授曾指出“情报学领域要想取得突破性进展,必将解决两个关键性问题,其一信息知识的组织和表达需要从物理层面的文献单元转换到认知层面的知识单元;其二信息知识的计量单位需要从语法层次向语义层次和语用层次发展”。因此,知识细粒度和精细化组织已成为图情学界研究的重要趋势。历史报纸资源作为重要的知识对象,其价值不言而喻。本文主要从知识组织视角对历史报纸资源进行描述、抽取、关联和应用,并引入知识元理论,根据知识元概念将历史报纸知识元界定为:历史报纸知识元由知识因子和知识关联两个要素构成,从知识外在和内容特征两个维度对历史报纸知识单元进行完整的描述,并准确表达其内涵和外延,是对历史报纸知识内容表示的最小单位。历史报纸知识可以分为基本信息、人物、事件、时空特性、职官、机构等方面,历史报纸知识元既是对某个历史报纸外在基本信息的描述,也是对历史报纸内容中人物、事件等知识点的概述。本文以历史报纸知识元为核心要素,旨在实现历史报纸资源知识单元的细粒度化和语义化组织,并以图谱可视化方式呈现知识元关联关系,推动历史报纸知识深层次开发和利用。鉴于此,本文主要内容如下。一、历史报纸资源语义化知识组织体系框架构建。本章首先从“外因牵引”和“内因驱动”两个维度阐释历史报纸资源语义化知识组织的必要性;其次,分析历史报纸资源语义化知识组织目标及原则;最后,依据历史报纸结构语义和内容语义特征,从知识元描述、抽取、关联和应用4个维度构建历史报纸资源语义化知识组织逻辑框架。二、历史报纸资源知识元描述。本章主要采用元数据和本体两种方式分别构建历史报纸资源知识元元数据描述框架和知识元语义描述模型,充分描述历史报纸资源的物理载体特征和内容语义特征,将历史报纸资源分为人物、时间、空间、机构、事件、职官、主题和文献8个知识元,并以《盛京时报》为例进行知识元描述。三、历史报纸资源知识元抽取。本章通过Paddle OCR文本识别工具、Jieba分词和人工标注等方式构建分词和词性级别的《<盛京时报>·长春汇编》1906-1911年语料库。在此基础上,采用Bi-LSTM、CRF和BERT等深度学习算法对8个知识元(标识术语)进行实体抽取;借助框架表示事件抽取方式设定事件类型、构建规则模板进而抽取事件知识元;利用LDA主题建模方式抽取主题知识元;藉由人工检索和正则表达式抽取实体知识项,以此完成历史报纸资源知识元抽取任务。四、历史报纸资源知识元关联。本章在知识元抽取基础上将知识元关联关系划分为外部结构和内部关联2个维度,前者指知识元实体之间的关系(对象属性),主要采用深度学习算法CNN和Bi-LSTM识别关联关系;后者指知识元实体属性关系(数值属性),主要采用规则模板方式抽取。基于上述两种属性特征构建历史报纸知识元语义关联模型,以SPO三元组方式表示,以Turtle格式进行存储,并采用知识图谱工具Neo4j呈现历史报纸知识元关联关系网络。五、历史报纸资源知识应用系统设计。本章从知识元应用视角入手,结合知识元描述、抽取和关联章节内容,采用生命周期法设计历史报纸资源知识应用系统,并将系统分解为4个子系统,即知识检索子系统、知识元库子系统、知识元实体抽取子系统和知识元实体关系识别子系统,各个子系统互联共通。在此基础上,从知识描述粒度、知识揭示维度和知识加工程度3个层面解析历史报纸知识应用系统的实现效果。历史报纸资源语义化知识组织是一段漫长的开发旅程。本文从知识元细粒度视角着手,探索历史报纸资源从描述、抽取、关联到应用的全流程,旨在为用户提供一个语义化和集成化的历史报纸知识应用系统,从而发挥历史报纸资源的多元价值,延续和继承报纸中蕴含的中华传统优秀文化!
其他文献
花色苷(Anthocyanins,ANCs)是一类具有多种生理活性的天然水溶性多酚色素。果蔬中的叶、花、块茎、果实的红色、紫色或蓝色是由花色苷决定的,被认为是有益于健康的特性。然而,花色苷容易受热、p H值和活性氧等因素的影响,导致稳定性下降和生物利用度降低。本研究探讨了花色苷的稳态化靶向递送体系的构建及其生物应用的效果评价。首先,以壳聚糖和果胶为原料,通过静电自组装法构建了具有p H响应特性的花
学位
教科书是开展健康教育的重要载体,教科书对健康教育内容的呈现与缺失直接影响学生的健康成长。采用内容分析法对小学教科书中健康教育内容的渗透情况展开分析。研究发现,尽管各学科教科书已融入了健康教育内容,但存在着内容缺失、程度浅显、分布不当的问题。其中身体健康与生活方式相关内容呈现最多,疾病预防与性健康相关内容在小学教科书中没有呈现。建议整体规划健康教育课程设置,根据学科特点充分渗透健康教育,合理安排各年
期刊
由于神经网络的复杂性以及广阔的应用前景,神经网络分岔动力学行为一直以来都是分岔动力学的研究重点。然而目前大多数神经网络动力学研究还局限于低维情况,鲜少工作涉及到高维神经网络动力学。主要原因在于,难以通过传统的矩阵行列式运算来列举高维矩阵行列式以及特征方程随神经元节点数的增加的变化规律,并且具有高次幂的特征方程的复杂性使得动力学分析难以进行。此外,随着复杂网络分岔动力学研究的深入,越来越多的学者开始
学位
以内容为中心的网络(Content-centric network,CCN)是一个用于5G无线网络降低时延的关键解决方案。在CCN中,流行度高的内容文件不会从核心网中提取,而是存储在本地并且可以重复使用。CCN可以有效减少内容访问时延、网络数据流量和功耗、以及整个网络热点的消耗。实际上,访问热门内容的请求频率远高于不太受欢迎的内容。You Tube曾报道前10%的热门视频内容占所有观看次数和下载次
学位
陶瓷型芯在航空发动机空心涡轮叶片的熔模铸造中起到关键作用。3D打印技术作为新一代的成型技术,具有无需模具、制造周期短、精度高等优点,正在逐渐替代传统的陶瓷型芯制备工艺。本文总结了光固化技术、选择性激光烧结、直写成型技术和分层挤出成型等目前在陶瓷型芯领域使用较多的3D打印技术,针对3D打印陶瓷型芯打印精度低、力学性能与气孔率适配性差、结构性能各向异性等局限性探讨了性能优化研究现状,并对该领域的发展进
期刊
该文采用文献资料、逻辑分析等方法对小学体育与健康教育课程进行解析。以健康中国探索视角,从国家健康发展的内在需求,促进学生体质健康的基本保证,小学阶段“健康教育”关注力度不足3个方面阐述小学体育与健康课程的背景,以学科、社会、学生的维度分析小学体育与健康课程实施的影响因素,并提出相应的策略,以期为小学体育与健康教育课程的构建和实施提供借鉴。
期刊
在国家不断强调“创新发展”与“协调发展”的背景下,如何正确处理高校与城市的关系至关重要。高校与城市处于何种状态、保持何种关系时可以更好地驱动经济社会发展,成为管理部门和学术界共同关注的重要议题。“共轭”是按照一定规律联系着的一对事物,这对事物相互影响、相互制约,具有协同性与发展性的实践基础。当系统处于共轭状态时,内耗减少,系统更趋稳定,发展更加顺畅。运用共轭理论来阐释高校与城市之间的关系,探究高校
学位
分布式存储技术利用冗余数据维护技术,通过分散在网络上的大量存储节点之间的协作,实现长久可靠的数据存储服务,因而在大规模数据中心、无线网络存储技术和P2P存储系统等方面有着广泛的应用。局部可修复码作为冗余数据维护技术中重要的新型编码技术之一,通过降低数据修复过程中连接的节点个数来降低消耗的带宽,近年来引起了学术界的广泛关注。本论文针对局部可修复码的理论设计问题,基于有限域、线性代数、组合设计等工具研
学位
人口老龄化是当前全球人口结构转变趋势。2000年我国进入人口老龄化社会,且近年来人口老龄化程度逐步加深。人口老龄化对我国经济社会发展形成了严峻挑战。医疗卫生政策和体系是我国重要的民生事业,也是重要的社会制度安排。积极应对人口老龄化,调整和优化医疗卫生政策,使之与人口结构变化相适应,是我国政府正在实施的重要战略举措。近年来,国家积极应对人口老龄化,实施了健康老龄化行动,同时,高度重视医疗卫生事业发展
学位
报纸