论文部分内容阅读
人机交互是人工智能的重点发展领域之一。在众多智能化的人机交互技术中,语义解析技术实现了自然语言到机器可理解命令的自动化转化,在机器翻译系统,问答系统和代码自动生成等人机交互场景都有着重要作用。因此,语义解析技术是当前人机交互领域的热点,受到了众多国内外重要研究机构及学者们的关注。如何通过语义解析技术构建数据库自然语言查询系统是其中最具挑战性的工作之一,具体包括以下三个方面:1)自然语言转化到结构化查询语言存在复杂语法学习问题,生成的数据库查询语句有效性无法保证。2)转化模型采取监督学习训练方式,存在以字符层面的目标函数和以数据库查询准确率的评价指标不一致的问题;3)生成的数据库查询语句普通用户不可读,无法验证结果的准确性。针对上述三方面的挑战,本文基于融合结构化知识的思路,在深度语义解析技术方面开展了探索,取得了以下几方面的研究成果及创新点:1.本文提出了一种基于编码器-解码器框架的自然语言到数据库查询语句转化模型。在编码阶段,通过巴科斯范式定义数据库架构相关的标签,构造自然语言的结构化表示,增加了输入自然语言与数据库架构信息的链接。在解码阶段,通过结构化查询语言的语法状态自动机,跟踪预测数据库查询语句的语法状态跳转,并将其嵌入到解码器神经网络结构当中。更进一步地,通过当前语法状态可以限定输出的词典空间大小,过滤词典空间中不符合语法规则的输出。总的来说,模型通过融合结构化查询语言语法结构和数据库架构结构信息到神经网络的网络结构中,大大减少了模型的学习成本。对比现有的前沿方法,在实际的数据库构建的数据集上进行验证,有着显著的效果提升。2.本文提出引用强化学习方法训练自然语言到数据库查询语句转化模型,用于解决模型目标函数与任务的评价标准不一致的问题。通过策略梯度强化学习方法,把字符层面相似性和查询结果层面准确性作为奖励反馈到模型训练中。一方面,由于自然语言转化到数据库查询语句是长序列生成问题,使得强化学习采样过程比较困难。而且结构化查询语言的语法结构复杂,导致采样的生成序列容易出现语法错误。另一方面,查询结果准确性只有在生成序列查询结果与目标序列查询结果有交集的时候才有正向反馈,造成强化学习训练奖励稀疏的问题。本文通过融合结构化知识提出一种新的采样方式来减少语法错误,同时降低了采样空间大小,提高了强化学习采样效率。进一步地,通过理论分析证明了采样效率有效性。同时,通过多组分析实验加以佐证。3.本文从逆过程考虑了从数据库查询语句到自然语言生成的技术研究。在现有的技术水平和数据条件下,模型准确性离产品化的要求还存在一定的距离,为了克服当前困境,课题考虑引入用户交互性反馈,提高模型的准确性。然而,没有计算机相关背景或者没有掌握结构化查询语言的用户,无法判断模型预测的数据库查询语句的准确性。因此,从预测的数据库查询语句到自然语言生成描述是需要被解决的。结构化查询语言或其他编程语言到自然语言生成问题,适用于人机交互、代码自动注释等应用场景。现有的方法在提取源结构化输入信息时准确性不足,导致生成自然语言描述往往缺少关键信息。本文提出一种融合结构化知识的复制机制,通过语法类型限制复制机制下的词空间大小,有效提高了提取源输入信息时的准确性。4.本文综合了前期研究的深度语义解析关键技术,提出一种新型的数据库自然语言查询系统(NADAQ)。通过自然语言到数据库查询转化模型和强化学习有效采样两者结合,NADAQ实现通过自然语言即可访问底层数据库的核心功能。通过基于融合结构化知识复制机制的自然语言生成模型,NADAQ可将转化后数据库查询语句反向生成自然语言描述,使得用户可以进一步确认,提高了系统准确性。除此之外,系统还增加了拒绝模型用于过滤无意义或者无关的输入问题,和推荐模型为用户提供多个候选查询。NADAQ系统为数据库相关人机交互应用提供了一整套完整的解决方案,推进了行业发展。