论文部分内容阅读
自动问答系统(QA),是一种用自然语言提问,并由系统自主获取知识并向用户直接返回所需答案的一种新的信息检索系统。问答系统一般包括三个主要组成部分:问题理解、信息检索和答案抽取。目前QA已成为非常热门的研究方向,其中以英文的QA系统居多,中文问答系统这几年也受到国内外一些机构的重视。中文QA系统的研究与英文等语种的QA系统相比,由于中文自身的特点,使得中文QA系统在研究中有不少自身的特点,有时完全不同于英文等语种的QA系统,这也是中文QA系统研究的一个关键。自然语言处理技术是问答系统的关键技术,要提高问答系统的水平,需要从与QA系统有关的自然语言处理技术着手,特别是如何准确把握问题和答案的语义。但目前,自然语言的语义分析技术还处于非常初级的阶段,因此,多数的问答系统都是回避语义分析或者只是基于浅层的语义分析去进行研究,因此难以取得好的效果。如何在问答系统中提高语义分析水平应该是提高问答系统水平的重要问题。句子的语义主要包括两个部分:构成句子的成份的词义和由句子结构确定的结构语义。句型的研究是语言学中句法结构层面研究中一个很重要的内容。一种语言的句子是无限的,而句型是有限的,通过研究有限的句型来把握无限的句子是句型研究的主要目标。属于同种句型的句子通常在句法结构、语义解释等方面具有一定的一致性。因此,通过研究句型及每种句型的结构语义,可以把整个语言中的句子根据句型分成若干个类型。对多数类型的句子而言,句子的结构语义是由句型决定的,通过建立每种句型的句子的结构语义计算规则,再标注出组成句子的词语的词义就能把握这些句子的语义。可见,通过句型来实现对句子的语义分析,应该是对多数句子进行语义分析的一条可行的研究方法。对于自动问答系统而言,疑问句的句型同疑问语义之间的关系更为密切,通过分析提出问题的疑问句的句型,可以准确地把握问句的疑问语义,进而实现对问句的理解;而预先根据问题类型规划出问题答案的句型,则能够更方便准确地搜索和抽取出问题的答案,并实现问题的回答。本文在句型系统研究的基础上研究了一个基于开放域的中文自动问答系统——虚拟信息顾问系统(VIC),它要求用自然语言提出问题,系统根据问题自动在网络上或文档集合中搜集相关资料,找出答案后回答用户的提问。主要工作包括:一、提出了句型系统的形式化理论和句型的语义计算方法。句型系统的形式化理论包括句型的形式化定义、句型描述、句型语义计算等内容。句型的形式化定义在前人对句型系统的研究和以及对句法结构研究的基础上,以句法同构为句型的分类标准,用生成语法的方式形式化地定义了句型概念。句型的描述则包括由形式化定义直接得到的推导描述、与自然语言学界中句型/句式描述类似的字符串描述、以及向量描述。句型语义计算的方法以句型向量中的成分为变量,根据句型的结构语义写出句型向量中的成分的格角色,在句子语义计算时,根据句子所属句型及句型语义就能标注出句子成分在句子中的格角色。二、提出了一种基于向量空间模型(VSM)的句型识别方法。基于向量空间模型(VSM)的句型识别方法通过计算句子与句型的相似度来排序并实现对句子句型的识别,即通过计算汉语句子中的特征词、短语和词的词性、以及句子中的语序关系,来实现对汉语句子句型的识别。该方法先以句型向量为模板对句子结构进行规约,得到基于句型模式的句型结构,然后将得到的句型结构表示成向量形式,并与句型向量进行相似度计算,并将一个句型层次的所有句型模式与句子的相似度进行排序,从而实现对句子的句型的识别。文章以疑问句的句型识别方法为例对句型识别进行了测试,测试结果标明,在句法分析正确的情况下该句型识别方法的正确率很高,即使对句法分析错误的句子,也能正确识别其中一部分句子的句型,说明这种识别技术具有较好的识别效果和较好的稳定性能。三、提出了基于句型系统的问题理解方法及基于问题句型系统的中文问答系统架构。句型是句子的句法结构分类,而问题分类是对问题的疑问语义分类,对于疑问句而言,句型与疑问语义紧密相关,通过句型联系问题的语义分类进而实现对问题的分类是本文问题理解的主要方法。文章通过对疑问句短语分类、建立问题分类标准和分类规则,并进而通过句型实现对疑问句的语义计算,再根据疑问语义得到问题的标准形,最后利用疑问句的句型识别技术实现了问题的分类和理解。汉语中疑问词的非疑问现象是一种常见的语法现象,通过对汉语中疑问词的非疑问用法的研究和非疑问用法的句型识别,达到了提高对问题分类和理解的水平的目的。四、针对自动问答系统中信息检索的特点和要求,提出了结合自然文档的结构,以文档段序、句序和词序为基础的改进向量空间模型(VSM)检索算法。并设计出适宜于VIC的信息检索模块。五、实现了VIC中问题理解子系统、信息检索子系统,并基于句型系统对问答系统的答案抽取策略和方法进行了初步研究。