古典诗词意境的自动识别

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wst6681
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
诗词是我国古典文化皇冠上的明珠,千百年来被无数人传颂和研究。但受限于技术手段的贫乏,对古典诗词的研究一直以来都是靠文人学者们的人力劳作。近年来随着计算机技术的迅猛发展和硬件算力的飞跃式提升,自然语言处理技术在实践运作中取得了令人瞩目的成果。本文将自然语言处理运用于古典诗词的文本分析当中,提出一套自动识别古典诗词当中意境的方法,对批量化研究古典诗词,坚定文化自信,为传承和弘扬中华优秀传统文化贡献微末力量。通过定制撰写爬虫以异步方式定向从互联网收集大量分类标注和未标注的古诗词文本语料,以及大量的非诗词古汉语语料。对语料进行数据清洗,入库。为了尽可能贴近原汁原味的古文,语料的采集和研究过程使用繁体中文作为标准。使用词嵌入进行词向量训练,完成语料的准备工作。研究不同的机器学习算法在文本分类上的应用,将其和不同的文档向量化方法相结合,比较其在诗词主题分类问题上的表现,总结出经典机器学习框架下有较好准确率。比较基于字的向量和基于词的向量的效果,得出基于字构建的古诗词向量具有较高准确率的结论。将深度学习方法进一步引入到研究中,分析各类神经网络的优劣,研究学界在自然语言处理实践中具有较好效果的神经网络架构,如Text CNN和Bi LSTM等,引入成熟的自然语言处理预训练模型如BERT等进行主题分类。构建了基于词向量的情绪字典匹配法进行情感分析。本文研究了古汉语和现代汉语在自然语言处理中的不同表现,分析了古诗词在分词、向量构造中的难点,通过字本位解决分词困难,通过研究从词向量到文档向量的映射直接构造文档向量。将自动识别算法应用于大量的未标注诗词,在得到的数据基础上开发出诗词意境分析与相似诗词推荐系统,用户输入一段诗句后就可以得到诗词意境的推断结果以及与其相似的诗词推荐,也可以通过主题和情感筛选分类查询数据库中的诗词。
其他文献
《水浒传》中道教书写颇多,就其内容而言,主要有道教人物、道教法术、道教斋醮、道教建筑以及道教名山等。《水浒传》中有关道教的书写并不是偶然写就的,而是与水浒故事的发生、发展以及形成的社会背景密切相关。同时,《水浒传》中的道教书写在全书思想和艺术方面也发挥着一定的功用。本文的论述旨在揭示《水浒传》道教书写的形成过程,探究道教书写在《水浒传》中的作用。本论文正文分四章,从以下几个方面展开探讨。第一章论述
学位
原丝制备过程溶剂DMSO的作用非常巨大,比如凝固浴(DMSO溶液)的温度、含量和pH能决定初生纤维的好坏;而与之相反的是在水洗这一工艺过程中需要把残余的DMSO清洗除去,因为DMSO
为了保证铁路的安全运营,使用机器学习、图像处理等来对轨道的基础设施(如钢轨、扣件等)进行可靠、实时、高效巡检是工务段迫切需求的,也是未来智能高铁的一个重要的组成部分。在服役的铁路中扣件发生病害的几率非常低,收集含有病害扣件的轨道图像需要花费很长时间。而这使得数据中正常扣件和异常扣件(具有病害的扣件亦称为异常扣件)的样本数量严重不平衡,会严重影响机器学习算法的检测效果。因此,本文针对扣件样本不平衡的
应急避难场所作为城市防灾减灾体系的重要组成部分,是在发生突发性灾害事件时对受灾人员进行救助、安置和疏散的重要场所。就应急避难场所而言,其空间布局合理与否直接影响到城市抵御灾害的能力。因此,对既有应急避难场所的布局进行科学、合理地评价是非常必要的。尽管关于应急避难场所布局合理性研究十分广泛,然而,数据难以获取、评价模型普适性低、研究尺度较大等诸多因素导致评价结果可信性低、精度差,意味着现有应急避难场
学位
目前,我国60岁以上老年人口已经达到2.22亿,占总人口的16.1%,预计2020年老年人口将达到2.43亿。人口老龄化趋势日渐严重,不仅给家庭生活带来负担,而且国家在老年人医疗等问题上支付大笔开销。大量的研究表明,体育锻炼不仅可以改善老年人的健康,减轻人口老龄化带来的种种问题,还可以促进家庭和睦和社会稳定。其中,老年人的生命意义感是老年人心理健康的重要组成部分,也是影响老年人成功老年化、主观幸福
学位
如何在电路系统仿真的时间和精度之间取得平衡以达到真正的非理想效果是混合信号电路设计的一个主要挑战。Sigma-Delta调制器是目前在信号处理和通信系统中非常流行的一种电路。本文提出了一种适用于无线局域网的四阶2-2 MASH-sigma-delta调制器的行为模型,并对其非理想因素进行了分析,并在MATLAB/SIMULINK环境下建立了该模型。模型考虑了大多数sigma-delta调制器的非理
学位
2014年COSY实验证实了六夸克奇特态d*(2380)的存在以来,双重子奇特态的结构是目前强子物理领域的研究热点.本文采用最为成功的手征SU(3)夸克模型研究了奇异数为-1的双重子奇
贫困,一直是各个国家社会经济发展和提高社会福利水平等首要解决的问题。从深化改革和开放以来,我国始终专注于推动乡镇脱贫、精准扶贫,并在实践中取得了光荣的成绩。由2019年《中国农村贫困检测报告》中的数据显示:从2010年到2019年我国农村贫困人口数从16567万人减少到551万人,每年农村贫困人口数平均下降1601.6万人。随着我国精准扶贫事业发展的逐渐深化,扶贫事业发展模式也由以往粗放型转变到精
学位
习近平同志在十九大报告中指出,要加强思想道德建设,汲取优秀传统文化中的丰富营养,使优秀传统文化焕发强大的生命力和影响力。《中小学德育工作指南实施手册》中明确指出要培养中小学生自信勇敢的良好品德。体育与德育之间是相辅相成的,体育承载着德育,德育又赋予体育更高的人生价值和诉求。中小学体育课具有基础性、实践性,在体育课中将体育与德育教育有机结合,施行体育德育一体化教育,是培养中小学生自信勇敢良好品德的最
学位
我国是一个具有悠久历史的文明古国,在悠久的历史文化中记载了极为丰富的地震史料,具有非常高的科学研究价值。我国老一辈历史地震学家曾经对大量的地震史料进行分析和考证,确定了许多历史地震的基本参数,并编撰了我们现在正使用的地震目录。这些地震目录在地震科研中发挥了极为重要的作用,但是由于受到时间久远和史料记载详略程度不同的影响,在现有的地震目录中还存在不少参数尚不明确的历史地震。多年来,有关学者一直在探索
学位