中文问答系统中的句型理论及其应用研究

被引量 : 0次 | 上传用户:ansonx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统(QA),是一种用自然语言提问,并由系统自主获取知识并向用户直接返回所需答案的一种新的信息检索系统。问答系统一般包括三个主要组成部分:问题理解、信息检索和答案抽取。目前QA已成为非常热门的研究方向,其中以英文的QA系统居多,中文问答系统这几年也受到国内外一些机构的重视。中文QA系统的研究与英文等语种的QA系统相比,由于中文自身的特点,使得中文QA系统在研究中有不少自身的特点,有时完全不同于英文等语种的QA系统,这也是中文QA系统研究的一个关键。自然语言处理技术是问答系统的关键技术,要提高问答系统的水平,需要从与QA系统有关的自然语言处理技术着手,特别是如何准确把握问题和答案的语义。但目前,自然语言的语义分析技术还处于非常初级的阶段,因此,多数的问答系统都是回避语义分析或者只是基于浅层的语义分析去进行研究,因此难以取得好的效果。如何在问答系统中提高语义分析水平应该是提高问答系统水平的重要问题。句子的语义主要包括两个部分:构成句子的成份的词义和由句子结构确定的结构语义。句型的研究是语言学中句法结构层面研究中一个很重要的内容。一种语言的句子是无限的,而句型是有限的,通过研究有限的句型来把握无限的句子是句型研究的主要目标。属于同种句型的句子通常在句法结构、语义解释等方面具有一定的一致性。因此,通过研究句型及每种句型的结构语义,可以把整个语言中的句子根据句型分成若干个类型。对多数类型的句子而言,句子的结构语义是由句型决定的,通过建立每种句型的句子的结构语义计算规则,再标注出组成句子的词语的词义就能把握这些句子的语义。可见,通过句型来实现对句子的语义分析,应该是对多数句子进行语义分析的一条可行的研究方法。对于自动问答系统而言,疑问句的句型同疑问语义之间的关系更为密切,通过分析提出问题的疑问句的句型,可以准确地把握问句的疑问语义,进而实现对问句的理解;而预先根据问题类型规划出问题答案的句型,则能够更方便准确地搜索和抽取出问题的答案,并实现问题的回答。本文在句型系统研究的基础上研究了一个基于开放域的中文自动问答系统——虚拟信息顾问系统(VIC),它要求用自然语言提出问题,系统根据问题自动在网络上或文档集合中搜集相关资料,找出答案后回答用户的提问。主要工作包括:一、提出了句型系统的形式化理论和句型的语义计算方法。句型系统的形式化理论包括句型的形式化定义、句型描述、句型语义计算等内容。句型的形式化定义在前人对句型系统的研究和以及对句法结构研究的基础上,以句法同构为句型的分类标准,用生成语法的方式形式化地定义了句型概念。句型的描述则包括由形式化定义直接得到的推导描述、与自然语言学界中句型/句式描述类似的字符串描述、以及向量描述。句型语义计算的方法以句型向量中的成分为变量,根据句型的结构语义写出句型向量中的成分的格角色,在句子语义计算时,根据句子所属句型及句型语义就能标注出句子成分在句子中的格角色。二、提出了一种基于向量空间模型(VSM)的句型识别方法。基于向量空间模型(VSM)的句型识别方法通过计算句子与句型的相似度来排序并实现对句子句型的识别,即通过计算汉语句子中的特征词、短语和词的词性、以及句子中的语序关系,来实现对汉语句子句型的识别。该方法先以句型向量为模板对句子结构进行规约,得到基于句型模式的句型结构,然后将得到的句型结构表示成向量形式,并与句型向量进行相似度计算,并将一个句型层次的所有句型模式与句子的相似度进行排序,从而实现对句子的句型的识别。文章以疑问句的句型识别方法为例对句型识别进行了测试,测试结果标明,在句法分析正确的情况下该句型识别方法的正确率很高,即使对句法分析错误的句子,也能正确识别其中一部分句子的句型,说明这种识别技术具有较好的识别效果和较好的稳定性能。三、提出了基于句型系统的问题理解方法及基于问题句型系统的中文问答系统架构。句型是句子的句法结构分类,而问题分类是对问题的疑问语义分类,对于疑问句而言,句型与疑问语义紧密相关,通过句型联系问题的语义分类进而实现对问题的分类是本文问题理解的主要方法。文章通过对疑问句短语分类、建立问题分类标准和分类规则,并进而通过句型实现对疑问句的语义计算,再根据疑问语义得到问题的标准形,最后利用疑问句的句型识别技术实现了问题的分类和理解。汉语中疑问词的非疑问现象是一种常见的语法现象,通过对汉语中疑问词的非疑问用法的研究和非疑问用法的句型识别,达到了提高对问题分类和理解的水平的目的。四、针对自动问答系统中信息检索的特点和要求,提出了结合自然文档的结构,以文档段序、句序和词序为基础的改进向量空间模型(VSM)检索算法。并设计出适宜于VIC的信息检索模块。五、实现了VIC中问题理解子系统、信息检索子系统,并基于句型系统对问答系统的答案抽取策略和方法进行了初步研究。
其他文献
企业并购重组是资产结构战略调整的有效手段,也是产权制度改革的必要步骤。随着我国经济的高速发展以及加入WTO后与全球经济并购进程的明显加速,行业内和行业间并购的需求非
<正>我国工程合同管理虽已经过十多年运行,但截至目前,由于合同价格条款的不严密,以及不合法的无效合同条款的存在,使得乙方在合同签订开始便处于风险状态。当风险出现时,双
海藻酸钠是天然高分子材料,具有生物可降解性,生物相容性好,来源广泛等优点,纳米氧化石墨巨大的比表面积和表面丰富的官能团赋予其优异的复合性能,使其在改变聚合物基质的力
随着无线通信技术的飞速发展,通信信号的体制和调制样式复杂多样,频谱日益拥挤和重叠,导致背景噪声与干扰显著提高,电磁环境极其复杂。这种复杂的电磁环境对于无论军事领域还
随着电子技术、计算机技术和数字图像处理技术的高速发展,视频监控技术广泛应用于各种场合。人们对视频监控的性能要求也越来越高。视频采集系统是视频监控系统的前端部分,传
随着我国社会经济和城市建设的高速发展,我国各行各业都得到非常大的进步,尤其是在水利工程方面的进步情况更可以称之为日新月异。水利策划越来越多,要求也越来越高,通过什么
分布式发电代表着21世纪电力能源的发展方向,它可以增加系统的供电能力、降低对环境的污染、提高电力系统的可靠性和经济性。研究分布式发电的运行技术和改善其电能质量具有
建筑室内热环境研究是暖通领域的重要内容之一,随着计算流体动力学和计算机技术的发展,建筑室内热环境仿真软件已成为建筑室内热环境研究的重要手段之一。国外,CFD软件已经发
胸痹,主要包括西医学的冠心病心绞痛,以中老年患者居多,随着现代生活方式及饮食结构的改变,发病有逐渐增加并且年轻化的趋势,重者可危及生命。胸痹一病,是由于正气亏虚,瘀血
目的:制备硝酸益康唑的羟丙基-β-环糊精包合物,对包合物性质进行研究。方法:采用冷冻干燥法制备包合物,通过相溶解度研究包合类型,并测定溶解度和溶出速率。通过测定抑菌圈