论文部分内容阅读
随着计算机技术的迅速发展以及Internet的广泛应用,知识和信息在世界范围内实现了平等共享和快速传播,人们可以方便、快捷地从互联网络上获取信息;但网络信息的爆炸性增长,使得准确、快速地获取有价值信息的难度逐渐增加。人们面对的问题不是没有答案,而是答案太多,如何从海量数据中选择合适的答案,需要提供更强有力的信息获取工具,以应对信息爆炸带来的巨大挑战。问答系统正是这个方面的重要研究内容。
问答系统(Question Answering System,Q&A)是信息检索的高级形式,属于精确检索范畴。它接受用户以自然语言形式描述的问题(如:中国的首都在哪里?),并从大量的异构数据中查找出能回答该问题的准确、简洁的答案(如:北京。)。
本文系统地介绍了问答系统的研究内容及现状,并对中文分词、词性标注、句法处理、语义解释等中文问答系统相关的关键技术进行了较为深入的分析与探讨,本文主要研究以下几个方面的内容:首先,本文系统地阐述了问答系统的模块划分,并对各模块的功能和关键技术进行了理论性研究;其次,对中文分词、词性标注问题进行研究,提出了一种基于频繁项目集挖掘的词性标注方法,并将基于统计和基于规则的词性标注方法相结合,通过实验验证,此方法相对于传统的基于规则或统计的方法准确率显著提高;第三,通过句法分析判定句子的结构成分,将一个句子分解为短语,依次向下分解为子短语、词语,从而得到句子的实际结构,并运用了chart图分析句子结构,浅层句法分析消除歧义等;第四,阐述了语义解释的相关内容,详细讨论逻辑形式和最终的意义表示形式之间的区别,提出一种逻辑形式语言,利用语法中的特征体系,采用逐条规则的方式来识别逻辑形式解决了逻辑形式和语法结构相关联的问题,。
最后,根据上述研究内容我们设计了一个基于自然语言理解的非受限领域的中文自动问答系统,对本文所涉及到的关键技术进行了检验、评测,取得了理想的实验效果,能够部分满足非受限领域自动问答系统的需要。