【摘 要】
:
随着自然语言处理技术的研究不断深入,利用计算机来处理中国古代文学经典在国内受到了越来越多的关注。这些方面的研究都依赖于以机器学习为基础的语料库数据驱动。由于实际
论文部分内容阅读
随着自然语言处理技术的研究不断深入,利用计算机来处理中国古代文学经典在国内受到了越来越多的关注。这些方面的研究都依赖于以机器学习为基础的语料库数据驱动。由于实际情况的需要,大多语料库都是基于现代汉语语言的,对于古代文学方面带有标注的语料库资源匮乏,所以建立专有的辅助古代文学研究的语料库尤为重要。本文以《全唐诗》作为标注对象,通过使用自然语言处理技术,结合唐诗句法、格律等特点,构建了一个全唐诗分词及词性标注语料库系统,并实现了人工校对的功能。文章首先分析了唐诗的特有性质,建立了相关知识库,并且利用词频、互信息和共现度等参数来建立全唐诗二字词表。然后结合句法和格律特点对唐诗进行切分。最后使用了隐马尔可夫链进行了词性标注。在此基础上,详细阐述了建立辅助古诗词研究的唐诗语料库系统的构建过程,并通过构建全唐诗系统进行语料库辅助实验。最后对语料库切分和标注的结果进行了分析和总结。
其他文献
毕飞宇自20世纪90年代正式步入文坛以来,获得很多文学奖项,2011年更是凭借长篇小说《推拿》荣获第八届茅盾文学奖。毕飞宇在成为获奖专业户的同时,也渐渐进入学者的研究视野
《关雎》作为《诗经》开篇之作,地位特殊,研究明人对《关雎》的接受,发现明人对《关雎》解读的特点,有利于考察明人《诗经》学研究状况,同时从微观层面上反映明代学术、明代
本文通过对2009-2018年十年来,我国"文化城市"领域研究文献进行梳理,并利用"citespace"软件进行计量分析总结。发现十年间我国"文化城市"作为交叉领域研究的学科,正处于一种
民国家具是中国家具史上的一朵美丽的“昙花”。它生于一个动荡的年代,却在一批来自国外的家具设计师以及一批中国本土优秀家具设计者的共同努力下,呈现出融会中西、优美舒适、
红外小弱目标检测是红外自寻的制导、搜索跟踪和预警等领域的一项关键技术。当探测器与目标之间的距离较远时,目标在成像上表现为只占若干个像素的小目标,并且易于淹没在各种杂
USB2.0OTG(USB On-The-Go)技术是USB2.0的发展与完善,具有USB2.0OTG接口的便携式设备摆脱了对PC机的依赖,可以实现两个非PC设备的直接通信并支持通信过程中主机和外设角色的
在21世纪,由于经济全球化进程的加快以及企业外部竞争的日趋白热化,现代企业组织的内外部环境呈现出激烈变化和动态复杂性。在这动态变化下,如何使员工适应复杂的环境,保持不断学
我国餐厨垃圾脂肪与蛋白质含量高,厌氧消化过程中极易出现酸化、氨抑制等现象。为了深入了解餐厨垃圾厌氧消化系统酸化过程,研究其微生物抑制机制,本研究首先在实验室规模的单相
自防疫站机构改革起,疾控中心已诞生十余年,其先后经受住非典、禽流感、手足口病等各种公共卫生事件的考验。面对日益繁重的疾病预防控制工作任务,疾控中心的思想政治工作越