论文部分内容阅读
自动问答系统综合应用各种自然语言处理技术,允许用户以自然语言的形式提问,返回给用户明确的答案。限定领域问答系统针对特定的领域,例如金融、教育、旅游等,由于面向范围有限,具有更好的应用效果,是计算机应用研究的一个热点。
根据用户提出的问题及其答案的形式,问题可以分作三类:列表类问题,事实类问题,定义类问题。其中定义类问题所占的比例较大,而且针对定义类问题回答的成果也很容易扩展到其他应用领域,所以定义类问题回答具有重要的研究意义和应用价值。
本文以操作系统课程的领域知识为例,针对限定领域内的定义类问题回答进行了一定研究,主要成果如下:
1.根据需要,收集了操作系统领域的专业词汇及概念,创建操作系统领域辞典,并在传统查询扩展方法基础上,提出了一种语义和统计信息结合的综合查询扩展方法。该方法首先通过局部统计分析方法获得一组候选扩展词,然后通过操作系统领域辞典对候选扩展词打分,选择得分较高的候选扩展词作为查询扩展。实验结果表明,这种综合查询扩展方法有效的提高了文档检索的准确率和召回率。
2.对操作系统领域文档和常用问题答案进行分析,归纳总结出定义类句子的句型模板,以此为基础,使用硬模板匹配和句子相似度相结合的方法,从候选句子集合中抽取定义句答案。
3.引入MIRA算法对答案进行排序。在对候选答案句子进行排序时比较了SVM方法和MIRA(Margin Infused Relaxed Algorithm)算法,MIRA算法成绩较好。本文在MIRA算法的基础上提出了BA-MIRA算法。BA-MIRA算法具有较好的泛化能力。