面向问答系统的问题分类与答案抽取研究

来源 :东北大学 | 被引量 : 10次 | 上传用户:ebeggar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能、信息检索以及自然语言处理等技术地发展,问答系统的研究也取得了长足地进步。特别是TREC等会议举办的问答系统评测任务又进一步推动了问答系统的发展。相比英文而言,中文领域并没有流行的问答系统评测,相关的数据集也十分匮乏,导致目前中文问答系统的研究相对落后。本文使用基于在线搜索引擎的方式来实现答案检索,主要研究工作为面向中文问答系统的问题分析与答案抽取。在问题分析部分,本文首先提出了一种基于词组合及问题类别的停用词选取方法,在选取停用词时先从由n个词组合成的短语中提取,并且在提取过程中考虑问题类别情况,通过不断减小n的值来完成迭代。在本文的数据集上,这一方法取得了较好的效果。接着,针对本文的问题,基于TF-IDF的思想提出了一种问句分类特征选取方法TFC-ICF。该方法综合考虑了一个词语标识某个类别的能力及其在各个类别中的分布情况,从而可以选取到质量更高的分类特征。本文使用基于SVM模型的分类器来进行自动分类,使用TFC-ICF方法选取的特征词在问题分类上的准确率可以达到80.45%。为了进一步提高问题分类的性能,本文以TFC-ICF方法为基准,提出了人工特征选取方法、基于关键词扩展的特征选取和选取语法信息的特征选取,并且在后两种方法中实验了多种不同的特征使用方法。通过与TFC-ICF方法结合使用,上述三种方法在问题分类上的最高准确率分别可以达到86.01%、85.14%和82.13%。在答案抽取部分,本文首先讨论了如何使用基于向量空间模型的句子相似度计算方法选取候选答案句子,进而使用实体识别的方法从候选答案句子中提取与问句类别相关的实体,最后,本文提出了一种基于句子相似度和实体信息的答案抽取方法,在NTCIR5的CLQA问答测试集上取得了较好的实验结果。本文对问题分类和答案抽取做了重点研究,并得到了一些成果,但其中也存在一定的问题,比如,问题数据集质量较差、实体识别的效果还不能完全令人满意、最终答案抽取的效果也不够理想。
其他文献
<正>脑卒中是包括蛛网膜下隙出血、脑出血和脑梗死〔1〕。我国脑卒中发病率为(120~180)/10万,每年新发病例约200万〔2〕,我国现幸存脑卒中病人近700万,其中致残率高达75%〔3
目的:探讨两种经脐单孔腹腔镜手术治疗小儿腹股沟斜疝的临床价值。方法:2013年1月至2014年12月选取600例腹股沟斜疝患儿,随机分为完全腹腔镜组(n=300)与硬膜外穿刺针组(n=300)。完
随着建筑行业的不断发展,安全监理工作愈加受到重视。特别是安全监理领域出现的一系列问题。影响了建筑施工的安全管理工作。本文对建筑施工中存在的安全隐患进行了剖析。指出
滨水城镇的旅游业发展受其区位、知名度和旅游组织线路等因素的影响。在江南古镇等滨水城镇的旅游业发展中存在着过分追求经济效益、特色不够鲜明和资源整合不够等问题,因而
贝叶斯网络在很多领域应用广泛,作为分类器更是一种有效的常用分类方法,没有任何结构限制的贝叶斯网络有着很高的复杂度,这使得它在应用中受到诸多限制。为了使贝叶斯网络分类器
我国现行合同法导入了效益价值观,对原合同立法中重安全保护、轻效益追求的做法进行了合理的修正,将安全和效益作为自己的双重价值追求,可以充分发挥合同法对市场经济发展的