论文部分内容阅读
随着人工智能、信息检索以及自然语言处理等技术地发展,问答系统的研究也取得了长足地进步。特别是TREC等会议举办的问答系统评测任务又进一步推动了问答系统的发展。相比英文而言,中文领域并没有流行的问答系统评测,相关的数据集也十分匮乏,导致目前中文问答系统的研究相对落后。本文使用基于在线搜索引擎的方式来实现答案检索,主要研究工作为面向中文问答系统的问题分析与答案抽取。在问题分析部分,本文首先提出了一种基于词组合及问题类别的停用词选取方法,在选取停用词时先从由n个词组合成的短语中提取,并且在提取过程中考虑问题类别情况,通过不断减小n的值来完成迭代。在本文的数据集上,这一方法取得了较好的效果。接着,针对本文的问题,基于TF-IDF的思想提出了一种问句分类特征选取方法TFC-ICF。该方法综合考虑了一个词语标识某个类别的能力及其在各个类别中的分布情况,从而可以选取到质量更高的分类特征。本文使用基于SVM模型的分类器来进行自动分类,使用TFC-ICF方法选取的特征词在问题分类上的准确率可以达到80.45%。为了进一步提高问题分类的性能,本文以TFC-ICF方法为基准,提出了人工特征选取方法、基于关键词扩展的特征选取和选取语法信息的特征选取,并且在后两种方法中实验了多种不同的特征使用方法。通过与TFC-ICF方法结合使用,上述三种方法在问题分类上的最高准确率分别可以达到86.01%、85.14%和82.13%。在答案抽取部分,本文首先讨论了如何使用基于向量空间模型的句子相似度计算方法选取候选答案句子,进而使用实体识别的方法从候选答案句子中提取与问句类别相关的实体,最后,本文提出了一种基于句子相似度和实体信息的答案抽取方法,在NTCIR5的CLQA问答测试集上取得了较好的实验结果。本文对问题分类和答案抽取做了重点研究,并得到了一些成果,但其中也存在一定的问题,比如,问题数据集质量较差、实体识别的效果还不能完全令人满意、最终答案抽取的效果也不够理想。