论文部分内容阅读
在互联网和人工智能日新月异的发展中,若能从非结构化的藏文律诗文本中提取结构化数据时,不仅能推动机器自动写诗的能力,而且在藏文智能信息处理中具有非常大的研究价值。该文首先介绍了律诗自动生成的研究背景和现状。然后进一步了解了自然语言处理领域中备受关注的词向量、循环神经网络、长短期记忆网络、编码器解码器模型以及注意力机制等的基本思路和数学原理。最后实现了如何从藏文网页或者电子书籍中获取藏文文本的方法,其中包括了从ePub文件类型中获取藏文文本的流程及其代码,还有藏文文本中获取藏文律诗的抽取算法及其代码。通过抽取算法共收集了373636首藏文律诗,从中各抽取500首分别作为验证集和测试集,剩余的作为训练集。本文的主要生成模型借鉴了汉语律诗的自动生成模型。在藏文律诗生成模型中包含了三个小模型,分别是训练单个诗句的诗句模型、训练多个诗句的诗块模型以及训练主题生成首句的诗字模型,其中最基本的框架是一个基于双向LSTM的端到端模型。这三个小模型所使用的训练数据不一样,因此需要承担的任务也不同。每个模型的编码器中都使用了双向LSTM,主要是为了突出每个藏文诗句中的核心词,使得模型能够很好地捕捉到藏文诗句中的重要信息,而不用平等地看待诗句中的所有字信息。训练每个模型时源诗句和目标诗句都使用了正序,这样有利于LSTM和注意力机制更好地从藏文律诗中学习相同词位上使用相同音节个数的规律,同时会保证藏文新律诗的节奏一致性问题。通常在藏文律诗中比喻词和源喻词处在相同的位置上,所以使用了局部注意力机制,这样不仅能加快计算速度,而且其生成结果没有明显下降。每个模型中引用了从藏文律诗语料中预先训练好的藏文音节向量来初始输入值,而不用随机值来初始化,这样既可以加快模型收敛的时间,又可以提升各个模型的生成结果。总之,藏文律诗生成模型在测试数据上BLEU值和ROUGE值分别能达到67.43%和68.81%,说明藏文律诗生成模型能生成具有一定流程度和忠实度的藏文新律诗。