融合结构化知识的深度语义解析相关技术研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:tianshiye45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互是人工智能的重点发展领域之一。在众多智能化的人机交互技术中,语义解析技术实现了自然语言到机器可理解命令的自动化转化,在机器翻译系统,问答系统和代码自动生成等人机交互场景都有着重要作用。因此,语义解析技术是当前人机交互领域的热点,受到了众多国内外重要研究机构及学者们的关注。如何通过语义解析技术构建数据库自然语言查询系统是其中最具挑战性的工作之一,具体包括以下三个方面:1)自然语言转化到结构化查询语言存在复杂语法学习问题,生成的数据库查询语句有效性无法保证。2)转化模型采取监督学习训练方式,存在以字符层面的目标函数和以数据库查询准确率的评价指标不一致的问题;3)生成的数据库查询语句普通用户不可读,无法验证结果的准确性。针对上述三方面的挑战,本文基于融合结构化知识的思路,在深度语义解析技术方面开展了探索,取得了以下几方面的研究成果及创新点:1.本文提出了一种基于编码器-解码器框架的自然语言到数据库查询语句转化模型。在编码阶段,通过巴科斯范式定义数据库架构相关的标签,构造自然语言的结构化表示,增加了输入自然语言与数据库架构信息的链接。在解码阶段,通过结构化查询语言的语法状态自动机,跟踪预测数据库查询语句的语法状态跳转,并将其嵌入到解码器神经网络结构当中。更进一步地,通过当前语法状态可以限定输出的词典空间大小,过滤词典空间中不符合语法规则的输出。总的来说,模型通过融合结构化查询语言语法结构和数据库架构结构信息到神经网络的网络结构中,大大减少了模型的学习成本。对比现有的前沿方法,在实际的数据库构建的数据集上进行验证,有着显著的效果提升。2.本文提出引用强化学习方法训练自然语言到数据库查询语句转化模型,用于解决模型目标函数与任务的评价标准不一致的问题。通过策略梯度强化学习方法,把字符层面相似性和查询结果层面准确性作为奖励反馈到模型训练中。一方面,由于自然语言转化到数据库查询语句是长序列生成问题,使得强化学习采样过程比较困难。而且结构化查询语言的语法结构复杂,导致采样的生成序列容易出现语法错误。另一方面,查询结果准确性只有在生成序列查询结果与目标序列查询结果有交集的时候才有正向反馈,造成强化学习训练奖励稀疏的问题。本文通过融合结构化知识提出一种新的采样方式来减少语法错误,同时降低了采样空间大小,提高了强化学习采样效率。进一步地,通过理论分析证明了采样效率有效性。同时,通过多组分析实验加以佐证。3.本文从逆过程考虑了从数据库查询语句到自然语言生成的技术研究。在现有的技术水平和数据条件下,模型准确性离产品化的要求还存在一定的距离,为了克服当前困境,课题考虑引入用户交互性反馈,提高模型的准确性。然而,没有计算机相关背景或者没有掌握结构化查询语言的用户,无法判断模型预测的数据库查询语句的准确性。因此,从预测的数据库查询语句到自然语言生成描述是需要被解决的。结构化查询语言或其他编程语言到自然语言生成问题,适用于人机交互、代码自动注释等应用场景。现有的方法在提取源结构化输入信息时准确性不足,导致生成自然语言描述往往缺少关键信息。本文提出一种融合结构化知识的复制机制,通过语法类型限制复制机制下的词空间大小,有效提高了提取源输入信息时的准确性。4.本文综合了前期研究的深度语义解析关键技术,提出一种新型的数据库自然语言查询系统(NADAQ)。通过自然语言到数据库查询转化模型和强化学习有效采样两者结合,NADAQ实现通过自然语言即可访问底层数据库的核心功能。通过基于融合结构化知识复制机制的自然语言生成模型,NADAQ可将转化后数据库查询语句反向生成自然语言描述,使得用户可以进一步确认,提高了系统准确性。除此之外,系统还增加了拒绝模型用于过滤无意义或者无关的输入问题,和推荐模型为用户提供多个候选查询。NADAQ系统为数据库相关人机交互应用提供了一整套完整的解决方案,推进了行业发展。
其他文献
针对当今声乐教育的问题,挖掘陶行知音乐教育思想里的生活教育、情感教育、民主教育精髓,为解决声乐教育实践中的诸多问题带来启示。在具体的声乐教学实践中,让声乐与学生生活相
1508年春,王守仁谪戍贵州龙场任驿丞,其后创建龙冈书院聚徒讲学。对王守仁创建龙冈书院的动因及其条件作深入探讨,不仅有助于全面了解王守仁在谪戍贵州龙场期间的史事,而且可
<正> 英汉两国的语言有着悠久的历史,也都包含了大量的习语。汉语中的习语包括成语、谚语、歇后语、俗语、甚至是粗俗语等等,英语中的习语也包括俗语(colloquialisms)、俚语(
书院教育为中国古代人文精神的形成、传承与创新,做出了独特的贡献,为当今道德教育资源的开发和利用提供了丰富的理论与实践经验。通过原生教育资源、再生教育资源、延生教育
一、绪言摩托车故障通常可分为两大类:性能下降型故障(如怠速不稳、启动性能不良、发动机运行过热、加速无力、油耗过大、排气冒烟、排放超标、噪声过大等)和性能停止型故障(
Apelin作为一种血管活性肽,是APJ受体的内源性配体。已有研究证实Apelin/APJ主要分布在心血管系统,其中,在血管平滑肌细胞、心肌细胞以及血管内皮细胞中表达尤为显著,这提示A
研究背景环状RNA(circular RNA,circRNA)是一类新型的非编码RNA,在恶性肿瘤的进展中发挥重要作用。然而,circRNA在食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)