论文部分内容阅读
本文以基础教育地理学科为研究对象,针对地理领域的概念关系抽取进行研究。但是,地理领域目前没有充足的语料支撑概念关系抽取研究。传统的解决方法是人工扩充语料库,但其人力成本高,而迁移学习方法能够迁移源领域的知识帮助目标领域解决仅有少量数据的问题,故本文研究如何基于迁移学习解决地理语料不充足的问题,以提升地理概念关系抽取的准确率。论文的主要研究工作如下:1)针对基础教育地理文本的时序性特征,利用长短期记忆(Long Short-term Memory,LSTM)神经网络,构建了基于词特征和句子特征的概念关系抽取模型。本文将地理概念关系抽取定义为基于给定概念对的关系语句分类问题,词特征是概念对的基本特征,使用Word Embedding进行提取;句子特征能够完整表达语句序列的语义信息,而LSTM因能有效利用序列数据中长距离的依赖信息,被认为适合处理文本序列数据,故使用LSTM提取概念对所在句子的句子特征。在地理概念关系语料不充足的情况下,该方法的准确率较低。2)针对地理概念关系语料缺乏的问题,提出了基于LSTM的迁移学习方法,该方法将开放领域的知识迁移到地理领域,辅助地理领域更准确地完成概念关系抽取。该方法由两部分组成:Sogou词向量经由大量数据训练得到,其特征表示比使用少量地理文本训练得到的词向量更准确,故首先提出了基于Word Embedding的词向量迁移学习方法,将Sogou词向量迁移到地理领域,进行对比实验。由于迁移后词向量的特征空间不一致,导致该方法对准确率的提升不明显。因而,进一步提出了基于网络权重的迁移学习方法,该方法先将使用开放域文本训练得到的LSTM网络权重按层迁移到地理领域;然后地理领域针对迁移的网络权重做了两种处理:保持不变和重训练调整,进行对比实验。实验结果表明,若使用地理文本对迁移的网络权重进行重训练调整,能较显著提升地理概念关系抽取的准确率。但该方法没有解决知识迁移过程中,因数据分布不一致产生的领域适应性(Domain Adaptation)问题。3)为了解决开放领域向地理领域进行知识迁移过程中产生的领域适应性问题,构建了基于多潜在特征空间层的地理领域迁移学习模型。该模型首先利用开放领域和地理领域间的相同概念建立一个共享的潜在空间;然后利用两个领域的特有概念,分别建立三个特有的潜在空间,并将三个特有空间和共享空间组成三个潜在特征空间层,同时用于学习两个领域间的数据分布。此外,该模型采用非负矩阵三因子分解(Nonnegative Matrix Tri-Factorization,NMTF)技术解决模型优化问题。该方法能初步解决两个领域间的领域适应性问题。