基于神经网络的藏文律诗生成研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:bairuyu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网和人工智能日新月异的发展中,若能从非结构化的藏文律诗文本中提取结构化数据时,不仅能推动机器自动写诗的能力,而且在藏文智能信息处理中具有非常大的研究价值。该文首先介绍了律诗自动生成的研究背景和现状。然后进一步了解了自然语言处理领域中备受关注的词向量、循环神经网络、长短期记忆网络、编码器解码器模型以及注意力机制等的基本思路和数学原理。最后实现了如何从藏文网页或者电子书籍中获取藏文文本的方法,其中包括了从ePub文件类型中获取藏文文本的流程及其代码,还有藏文文本中获取藏文律诗的抽取算法及其代码。通过抽取算法共收集了373636首藏文律诗,从中各抽取500首分别作为验证集和测试集,剩余的作为训练集。本文的主要生成模型借鉴了汉语律诗的自动生成模型。在藏文律诗生成模型中包含了三个小模型,分别是训练单个诗句的诗句模型、训练多个诗句的诗块模型以及训练主题生成首句的诗字模型,其中最基本的框架是一个基于双向LSTM的端到端模型。这三个小模型所使用的训练数据不一样,因此需要承担的任务也不同。每个模型的编码器中都使用了双向LSTM,主要是为了突出每个藏文诗句中的核心词,使得模型能够很好地捕捉到藏文诗句中的重要信息,而不用平等地看待诗句中的所有字信息。训练每个模型时源诗句和目标诗句都使用了正序,这样有利于LSTM和注意力机制更好地从藏文律诗中学习相同词位上使用相同音节个数的规律,同时会保证藏文新律诗的节奏一致性问题。通常在藏文律诗中比喻词和源喻词处在相同的位置上,所以使用了局部注意力机制,这样不仅能加快计算速度,而且其生成结果没有明显下降。每个模型中引用了从藏文律诗语料中预先训练好的藏文音节向量来初始输入值,而不用随机值来初始化,这样既可以加快模型收敛的时间,又可以提升各个模型的生成结果。总之,藏文律诗生成模型在测试数据上BLEU值和ROUGE值分别能达到67.43%和68.81%,说明藏文律诗生成模型能生成具有一定流程度和忠实度的藏文新律诗。
其他文献
通过分析近三年全国各地高考语文试题中的古诗鉴赏部分,发现有近十个省市所选的诗词不约而同地都含有“雨”的意象,从而集中探究了古诗文中的“雨”现象.
在过去的数十年,MH-Ni电池成功地实现了产业化,如何处理废弃的电池以减少环境的污染及有效再利用其中的金属材料是目前面临的一大课题.综述了国外在这方面的研究情况,对比三
针对森林抚育作业设计的开展情况提出几点建议,以期能够促进我国育林工作的快速发展,改善我国城市环境污染状况。
在儒家的理论模式中,理想的统治者是“君”与“师”两种角色的有机融合体。自汉朝“独尊儒术”以来,历代君主中不乏推行“教化”之道者,其中以明太祖朱元璋最为显著。朱元璋
会议
社会经济的快速发展,给互联网技术和信息技术的发展带来了便利,随着智能手机逐渐大众化,借助手机这种载体来进行广告的宣传也更加频繁,其具有较广的覆盖面积、较高的准确度和
农业的粗放发展,导致了对农业资源的过度开发和对生态环境的破坏,"两型农业"成为农业农村经济可持续发展的必然选择。近几年,国家对"三农"问题高度重视,并且十分重视中部地区
针对圆筒形永磁直线同步电机,设计了一种位置控制系统。考虑到直线电机的推力脉动、摩擦力和系统模型的不确定性,采用干扰观测器(DOB)对其进行在线估算并进行补偿,经过补偿,系统模
在小学语文教学中,最为关键的一环就是作文教学。教师在实际开展作文教学中,除了需要教学课本教材知识以外,课外阅读同样重要,其对于提升小学生作文写作能力具有较大的推动作
基础地理数据是智慧城市建设的重要基础设施之一,本文论述了一张图平台对基础地理数据的组织管理方式,简述了沈阳市基础地理数据一张图平台建设的内容、技术框架、数据组织方