论文部分内容阅读
本文主要研究面向地图搜索领域的自然语言句子查询语义意图理解问题。查询语义意图理解对搜索引擎及自动问答系统的进一步发展和完善十分重要。随着语音搜索和智能搜索的发展,出现了越来越多的面向自然语言句子的查询。现有的查询意图理解研究对象大多是基于关键词的查询输入,没有考虑到面向自然语言句子查询背后的复杂信息需求,同时忽略了此类查询中不同成分间存在的依赖关系和结构。所以已有的查询语义意图理解方法不太适用于面向自然语言句子的查询。本文主要通过两部分的研究来探索面向地图搜索领域的自然语言句子查询语义意图理解问题:面向文本的中文地址规范化任务和面向自然语言句子查询的语义意图理解。 由于地图搜索领域的自然语言句子查询中包含多种不同查询成分,如何正确识别出这些成分和其中的地址元素是理解面向地图搜索领域的自然语言句子查询语义意图的必要因素。然而中文地址元素识别面临着完整性、多样性、歧义性等多重困难,且上述地址查询通常隐含由地址语义元素组成的语义模式。因此本文首先提出面向文本的中文地址规范化任务,它能识别出该类地址查询中的不同成分及地址元素。实验表明本文的方法较传统的标注方法取得了更好的准确率。 在上述中文地址规范化研究基础上,本文接着提出了一种面向地图搜索领域的自然语言句子查询语义意图理解方法。首先引入了层次化的树状结构来形式化的表示自然语言句子查询的语义意图,其包含有不同的查询成分知识且有查询成分间存在的依赖和关系。其次提出了一种基于结构化SVM的查询语义意图表示自动化学习算法。该算法可以根据查询语义意图表示的内部结构来生成相应的特征函数,从而使得该方法较传统的结构化解析方法可以采集更多的特征帮助模型训练学习。实验表明本文的方法较经典的方法获得的更好的结果。