限定域定义类问题的问答研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:Javayuyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统综合应用各种自然语言处理技术,允许用户以自然语言的形式提问,返回给用户明确的答案。限定领域问答系统针对特定的领域,例如金融、教育、旅游等,由于面向范围有限,具有更好的应用效果,是计算机应用研究的一个热点。   根据用户提出的问题及其答案的形式,问题可以分作三类:列表类问题,事实类问题,定义类问题。其中定义类问题所占的比例较大,而且针对定义类问题回答的成果也很容易扩展到其他应用领域,所以定义类问题回答具有重要的研究意义和应用价值。   本文以操作系统课程的领域知识为例,针对限定领域内的定义类问题回答进行了一定研究,主要成果如下:   1.根据需要,收集了操作系统领域的专业词汇及概念,创建操作系统领域辞典,并在传统查询扩展方法基础上,提出了一种语义和统计信息结合的综合查询扩展方法。该方法首先通过局部统计分析方法获得一组候选扩展词,然后通过操作系统领域辞典对候选扩展词打分,选择得分较高的候选扩展词作为查询扩展。实验结果表明,这种综合查询扩展方法有效的提高了文档检索的准确率和召回率。   2.对操作系统领域文档和常用问题答案进行分析,归纳总结出定义类句子的句型模板,以此为基础,使用硬模板匹配和句子相似度相结合的方法,从候选句子集合中抽取定义句答案。   3.引入MIRA算法对答案进行排序。在对候选答案句子进行排序时比较了SVM方法和MIRA(Margin Infused Relaxed Algorithm)算法,MIRA算法成绩较好。本文在MIRA算法的基础上提出了BA-MIRA算法。BA-MIRA算法具有较好的泛化能力。
其他文献
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大。目前大规模的数字取证调查至少存在两个基本挑战。第一是如何满
位置管理是蜂窝通信网中的一个重要问题,随着移动用户数量的快速增加,移动用户的漫游将导致巨大的系统资源消耗,因此对现有的移动性管理算法进行调整和优化是十分重要的。  
伴随着互联网数据爆炸式地增长,各种类型的数据以流的形式源源不断产生。静态数据上的挖掘技术已不能满足现实问题分析的需要,应运而生了各种数据流挖掘技术,同时数据流挖掘
随着网络技术的飞速发展,信息快速增长与人们个性化需求的矛盾在不断地增加,而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类,可以发现用户兴
随着计算机技术的飞速发展,计算机信息安全问题越来越受关注。无论是电子商务、电子政务、企业信息平台都存在来自系统内外的安全威胁。信息安全已经成为信息时代高度受关注的
模式识别方法已经成功地应用到大量的目标识别任务中,其中人脸识别已成为模式识别和计算机视觉领域的一大研究方向。近年来的研究成果表明,人脸图像很可能位于一个非线性流形上
科学技术和工业生产的发展,对质量要求越来越高。五十年代以来,火箭、人造卫星、宇宙飞船等大型、复杂、精密的产品出现,对产品的安全性、可靠性、经济性等要求越来越高,因此产品
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human Computer Interaction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。针对移动地理信息系
网格是继Internet和Web技术之后又一次重大的科技变革。在网格计算环境中,任务调度是影响系统性能和服务质量的关键问题之一,已经被证明是一个NP完全问题,所以它引起了众多学
核苷酸多态性(Nucleotide Polymorphisms)是人类基因变异中常见的变异形式,包括单核苷酸多态性(Single nucleotide Polymorphisms,SNPs)和多核苷酸多态性。其中,单核苷酸多态性