基于深度学习的图像和文本模态的甲骨文辅助考释研究

来源 :周雨 | 被引量 : 0次 | 上传用户:youling0186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
四大古文字体系之一的甲骨文,是我国历史文化的瑰宝,同时也是世界非物质文化遗产。研究甲骨文对中国历史文化传承有着重要意义。甲骨文发现已过百年,其考释工作取得了很大成就,但是现有的专家人工考释已遇到瓶颈。将人工智能技术引入甲骨文进行交叉研究是一个突破口。然而现有研究大多集中于甲骨文字识别、缀合、语义翻译等方面,对甲骨文考释的研究还不够全面深入,同时还没有一个较为完善的计算机系统辅助甲骨专家进行考释工作。本文采用深度学习方法,从图像和文本两个模态进行甲骨文辅助考释研究,主要创新性工作如下:(1)深度学习需要大数据,但现有甲骨文数据稀少,因此本文在图像和文本两个模态都进行了数据增强。一方面利用其它年代汉字字形数据对甲骨文的图像模态进行数据增强;另一方面,将甲骨字和现代汉字均拆为表意文字描述序列(Ideographic Description Sequence,IDS),从大规模古汉语数据中学习偏旁部首及构型符的语义,以缓解甲骨文文本数据的稀缺性。以上数据增强方法解决了深度学习模型的可用性。(2)在图像模态上将考释抽象为图像相似性检索问题。针对汉字结构特点,提出了基于Triplet架构和迁移学习的整体与局部特征融合网络。利用金文和甲骨文字形的变换相似性,找出与待考释甲骨文字形相近似的金文及其对应的现代汉字作为候选集,用于辅助释读。对比实验显示本文提出的模型具有较好的效果。(3)在文本模态上将考释抽象为分类问题,利用现代字IDS和甲骨字IDS的语义相似性提出了基于汉字构件(偏旁部首和构型符)的语义模型,且结合偏旁部首的概率变换和多条甲骨上下文信息设计了端到端的考释模型。该模型通过输入甲骨字IDS预测对应的现代汉字及其概率,并通过实验验证了其有效性。最后本文根据上述两个模态的研究,设计了综合考释模型。并搭建甲骨文辅助考释系统,甲骨文专家可通过两个模态得到待考释甲骨文的相似金文图像及现代汉字候选字集,或通过综合模型得到考释候选,用以辅助决策。
其他文献
2020年的新冠疫情对全球经济带来了极大的冲击。除了疫情对产出、就业、医疗成本等方面的直接影响外,为了控制新冠疫情所实施的交通、物流限制政策对经济系统的影响更持久、范围也更广,其中由于疫情及疫情相关政策对供应链冲击所带来的生活成本的变化尤其值得关注。目前文献中对此类的实证分析还很有限。本文围绕农产品,利用详细的疫情和疫情政策信息,结合高维度的农产品价格数据,采用计量回归模型,分析新冠疫情对农产品销
学位
在复合趋向补语当中,“下来”的使用频率较高,是较有代表性的一个词,观察以往的研究,我们发现,与本体研究相比,与学生习得相关的研究较少。本文参考现有的研究成果,从对外汉语教学的角度入手,对趋向补语“下来”的语义和句型进行梳理,得到16种类型为考察对象,以多元发展模式理论为指导,采用问卷调查的方式收集三个等级60个英国汉语学习者的答卷,以蕴含量表、聚类分析作为研究手段,对数据展开分析。本研究发现,英国
学位
语言在应用中因实际情况中的情境要素不同而产生差异,这种语言差异的现象被系统功能语言学派称为“语域”,即“与使用该语言的情况相对应的一种变体”(韩礼德,1964)。以往对语域差异的研究上多集中于单一或少量词汇语法项目的质性研究上,面对语域中复杂多样的词汇语法项目,Douglas Biber等人提出多维度分析法,以定量研究与定性研究方法相结合,从宏观层面与微观层面对语域中情境要素与词汇语法项目共现模式
学位
疑问句在人们日常交际中充当着重要的角色,是人们表达疑问和开启话题的重要句型,在对外汉语教学中,也是汉语学习者需要掌握的重要句式。因为汉语疑问句本身句法结构的复杂性,以及受学习者自身已习得的语言、教师课堂教学、所使用的教材等各方面因素的影响,许多汉语学习者的疑问句习得效果不尽人意。本文通过问卷调查和个案追踪收集马耳他初中级学习者疑问句的语料,先对语料进行数据统计和分析,运用语言学的相关理论对偏误进行
学位
近年来,国际中文教育事业蒸蒸日上,但是对一些中高级汉语水平的学习者而言,只是单纯地学习语言并不能满足他们的学习需求,中国文化的学习也有很重要的地位。婉约派宋词以其特有的艺术魅力成为中国文化经典中的一部分,因而可以成为教学重点。本文是基于笔者对婉约派宋词内容的研究和一年的汉语教师志愿者经历展开的,并通过对婉约派宋词教学问卷调查的分析,得出学习者的需求和一些相应的建议来指导论文的写作。首先,根据问卷结
学位
论文基于“新诗”概念的研究,尝试从中国现代“新诗”是如何形成的这一问题出发,梳理从“白话诗”到“白话新诗”再到“新诗”命名形成的外在过程,关注“新诗”在形成过程中与“诗歌”之间的区别与联系,从体式、音节、文化品格三方面探寻“新诗”本体的形成过程,以期对“新诗”概念的正名,对作为文体的“新诗”的更好理解。引言部分,对论文选题的缘由及研究现状进行了梳理,从“新诗”的起源、“新诗”概念的研究、“新诗”与
学位
印度从1991年进行工业经济革命以来,国内投资环境改善,印度政府通过更加优惠宽松的法律政策吸引了大量的外国直接投资来推动国家的发展建设。印度的众多产业也走在了世界前列,尤其是信息技术产业。中国在“走出去”战略和“一带一路”倡议的指导下,将印度作为一个主要的投资区位选择。但是2020年来印度的一系列对外投资限制措施导致对印投资风险加大,如以“可能损害印度的国家安全和公共秩序”或者“有害于印度主权”等
学位
新时代党中央赋予兵团向南发展重大历史任务,集聚足够数量的人口成为关键之举。自2018年以来,兵团南疆团场迁入大量的移民人口,如何让这一群体能更好的适应并融入兵团社会,实现“引得来、留得住、能致富”成为当前兵团新移民治理的关键。本文研究的新疆兵团新移民是指在兵团向南发展背景下,近年来从疆外移居到兵团团场的移民群体,相对于第一代兵团移民,他们面临的生存发展机遇不同,各自的社会生活境遇也具有差异性。新移
学位
在汉语国际传播的进程中,文化传播应受到足够的重视。中华优秀传统文化博大精深,很多文化经典著作值得汉语学习者一读。但是不少汉语学习者只知道《论语》《老子》,对其他经典并不了解。为了推动更多优质的传统文化经典在世界范围内的交流,也为了更大程度地满足汉语学习者了解中国文化的需求,有必要编写一批符合学习者阅读兴趣和需求的文化经典辅助读物。通过总结当前汉语国际文化传播与教学、文化教材与读物编写的相关研究,考
学位
2020年初,新冠疫情的爆发使得汉语教学工作的开展面临巨大的挑战,大规模借助网络平台进行教学成为应急之举,该模式下传统的面授课堂形式被打破,取而代之的是借助网络直播开展的远程教学,该形式下教学得以顺利展开,但综合多方面因素发现实际教学中仍存在不少问题,尤其在平台的选择和使用上。因此,本文从国内高校汉语学习者在疫情期间使用网络直播平台进行汉语学习的情况出发进行研究,发现总结其中存在的问题,并希望能为
学位