问句分类方法及其在问答系统中的应用研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:dlxfmc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的信息检索系统均使用关键词组合作为系统输入,忽略了问句语义的多样性和语言结构的分析。问答系统能够接受用户以自然语言形式描述的问题,并能从大量异构的数据中查找或推断出用户问题的答案,提高用户查询效率。因此问答系统成为信息检索技术向人性化、智能化方向发展的一种必然趋向。问句分析的目的是明确用户意图,有效地定位到正确答案。因此,问句分析是问答系统的核心技术之一,而问句分类是问句分析的重要组成部分。在深入学习了目前中文问句分类及问答系统相关研究方法的基础上,本文提出了基于最大熵模型和双向长短期记忆人工神经网络(Bi-LSTM)模型的问句分类方法,具体研究工作如下:(1)研究了基于最大熵模型的问句分类方法。该方法把句法分析和词向量等语义知识运用到问句表示中,研究了问句的词汇特征、句法特征和词向量特征对问句粗分类准确性的影响,实验结果表明,相对于其他特征,词向量特征对问句粗分类取得了较好的效果,准确率达到88.75%。(2)研究了基于Bi-LSTM的问句分类方法。基于最大熵模型的问句分类方法需要人工提取问句的特征,带有一定的主观性。而基于Bi-LSTM的问句分类方法能够自主地学习问句的句法和语义特征,避免了人为因素带来的干扰。在分类模型中,本文使用了词语、词性和位置特征,并将这三种特征向量融合得到的词嵌入作为模型的输入,然后将输出结果通过最大池化层(Max Pooling)和Softmax层来完成问句特征提取和问句粗分类的工作。实验结果表明,该方法在粗粒度分类上准确率达到92.38%。(3)研究了问句分类在知识库问答系统中的应用。本文借助问句分类特征,再结合相似度、编辑距离和共现特征,利用Ranking SVM算法对候选答案进行排序。在NLPCC2016开放域知识库问答系统的评测任务的数据集上进行实验,结果表明,将问句分类应用到知识库问答系统的答案排序中,有助于提高答案识别的准确率,其准确率达到74.49%,召回率达到83.20%,平均F1值达到76.13%。
其他文献
目的探讨以花生、紫薯为主要材料的紫薯花生酸奶的制作工艺及抗氧化活性。方法选用德氏乳酸杆菌(LactobacillusDelbruckii)作为菌种迚行収酵,根据感官评定和稳定性研究结果,
脑卒中是癫痫最为常见的病因之一,尤其是65岁以上的老年患者,同时癫痫发作也可诱发脑卒中。本文重点介绍脑卒中后癫痫发病机制、脑卒中后癫痫的定义与分类及脑卒中后癫痫与卒
语法化理论进入中国后,介词研究进入全新阶段。据目前研究,介词语法化研究主要呈现以下几个特点:第一,普通话研究成果多,方言研究不充分且停留在比较其与普通话不同的层面;第
目的探究脑卒中后吞咽障碍针灸治疗的临床效果。方法将我院及广州中医药大学第一附属医院自2015年1月至2016年11月收治的脑卒中后吞咽障碍患者80例分为两组,对照组接受吞咽训
20世纪80年代以来,台湾外向型经济的发展、解严令的颁布以及人民团体组织法的修订使得台湾非政府组织的数量快速增长,服务内容日臻全面,国际化视野更为凸显。2000年民进党执
目的:探讨脑卒中后便秘的中医证型及分析相关因素,提高预防的针对性和有效性。方法:对100例脑卒中后患者分为便秘组68例、无便秘组32例,根据《慢性便秘中医诊疗共识意见》进
人是构成社会生产中最活跃的因素,人们需要的改变导致社会主要矛盾的变化。社会主要矛盾是社会基本矛盾——生产力和生产关系矛盾的外在表现,解决社会主要矛盾,必须从社会基
通过对山东枣庄市妇幼保健院新城迁建项目的介绍,并结合妇幼保健院主要职能,分析和阐述了其在功能定位及建筑设计方面的特点与要求,探讨了建设好一所妇幼保健院应有之策。
目的:我国近年来前列腺癌的发病率呈现上升趋势,临床上确诊的高危前列腺癌占新发患者的35.8%,探讨经腹膜外途径腹腔镜前列腺癌根治术(Extra-peritoneal Laparoscopic Radical
目的初步探讨介入诊疗过程中患者的性腺组织所受辐射剂量,以获取在介入诊疗过程中保护性腺组织的方法。方法采用DSA腹部常规透视模式和摄影模式,分别采集有和无屏蔽时睾丸和