面向多领域先秦典籍的分词词性一体化自动标注模型构建

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:yangzdh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型.[方法]采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型.最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析.[结果]在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%.在《史记》上的应用进一步证明了模型的稳定性和实用性.[局限]通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决.[结论]将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍.
其他文献
当下“一肩挑”模式是推进国家治理现代化和实现乡村振兴的现实需要,而“一肩挑”干部队伍的职业化程度是影响基层治理效率的重要因素。调研表明,由于一些深层次的问题没有解
大自然是孩子成长的摇篮,提供着鲜活的教育资源。引导幼儿认识生命、感受生命、珍惜生命是幼儿园饲养活动的重要目标,教师需鼓励幼儿参与观察探索的活动,让幼儿独立地去亲近自然
期刊
随着新课程改革的不断深入,幼儿园越来越重视户外自主游戏的开展。但是教师在放手让幼儿自主游戏的同时,也困惑于自主游戏的指导,不知怎样才既能保证幼儿人身安全,又能最大化发挥
期刊
“双高计划”给高职院校带来了新的发展机遇,为高职院校科研工作指明了方向。对“双高”校“十三五”时期专利、论文等科研成果数据进行统计分析发现,高职院校的学术影响力有
威廉福克纳(William Faulkner)是美国文学史上最具影响力的作家之一,同时也是意识流文学在美国的代表人物.近五年来,国内福克纳研究硕果累累,开拓了研究视角的新领域,并且形
随着高中语文新课程改革的进一步渗透,对学生的阅读量也提出了更高要求,而整本书阅读的教学方式对于学生的未来发展具有极其深远的影响,可以让学生通过接触大量的文学作品,帮助学
本文所谓陈述式问句在句法上是陈述句的结构,不带有句末上升语调,但在会话互动中行使求取信息或要求确认等社会行为,被解读为问句.我们认为,陈述式问句判定的必要条件就是在
精神文化建设是高校图书馆的灵魂和支柱。图书馆的风貌因为有精神文化才富有生机。本文阐述了加强高校图书馆精神文化建设的多种途径和重要意义。