论文部分内容阅读
人工智能技术正在飞速改变这个世界。在自然语言领域,围绕着自动问答系统(Question Answering,QA)开展了越来越多的研究。高效、智能的问答系统,致力于为用户提供更直接更优质的答案,可以从大量的知识储备中自动进行检索、推理,从而将用户从这些处理中解放出来。2011年,IBM的Watson问答机器人参加问答类综艺节目"Jeopardy!",并战胜了人类顶尖选手赢得冠军,自动问答系统再一次吸引了世人的眼光。从某种程度上来说,高考作为中国大多数中学生最重要的考试,可以看做是一种高水平的问答过程。本文的项目背景是面向中国高考地理试题的问答系统,并侧重于对选择题的解答。在解决高考自动问答的过程中,我们面临很多与传统问答系统不同的挑战:首先高考题的问答形式与传统自动问答系统存在明显区别;其次,高考题的灵活性远高于传统问答系统中的问题,这意味着我们很难从现成的文本中直接匹配、抽取得到答案。作为自动问答的第一步,问题理解的作用十分重要,这也是本文的工作重点。本文中将选择题题面和一个选项拼接成的完整句子作为分析的对象。对文本的理解可以分为两种:一是对句子间的篇章关系分析,二是对句子内部的语义关系理解。因此我们从两个方面来研究对于地理试题的理解问题:一方面是问题中子句间关系分类,另一方面是尝试使用AMR(Abstract Meaning Representation)对试题文本进行深层语义分析。本文中的句子拆分工作,是针对地理选择题的特点,提出了利用逗号对选择题的选项进行可能的拆分,将较长的原句转换成语义等价的多个简单句,从而简化后续处理步骤的输入,提高后续步骤的处理能力。在这项工作中,我们使用了最大熵分类器和基于规则的启发式方法,通过两个步骤来实现句子拆分:首先识别选项中的逗号是否可以作为一个分割点,然后再识别句子的从句或并列结构的公共前缀边界。AMR是一种具有较为强大表达能力的新型语义表示方法,它可以将一句话的语义用单根的、有向的连通图表示出来,更强调句子的抽象语义,而非具象的语法表达方式。但是由于围绕AMR的研究才刚刚起步,目前已有的AMR自动分析效果还有很大待提升的空间。中文AMR的标注语料规模较小,将AMR应用到中文的研究几乎还是空白。本文在AMR方面的工作主要是对现有AMR分析算法进行一些实验分析,并首次验证AMR标注体系及自动解析算法在中文上的性能。针对地理试题,我们标注了一个小样本的AMR语料,并用现有算法来验证AMR在特定领域文本上的处理能力。为了支撑上述两项问题理解的研究工作,我们还构建了一个地理试题标注工具,并通过这个工具建立一个高质量的地理试题语料库。除了可以标注句子分割和AMR这两种信息,该工具同时支持标注分词、词性、命名实体、地理术语、试题模板表示、成分句法等各项数据。