基于卷积神经网络的文档库自动问答模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:song198143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展势头越来越强劲,人们在日常生活中也越来越依赖互联网技术,如何在庞大的数据量中精准而高效地获取到有用的信息也越来越重要,学术界和工业界也越多越多的聚焦在自然语言处理领域中的自动问答技术。然而,随着数据的爆发式增长,传统的自动问答技术已经无法满足人们希望智能的获取精准信息的要求,因此,越来越多的学者们利用词语的分布式表示技术和通过神经网络模型学习句子的抽象语义特征来解决这一问题。基于文档库的自动问答任务的核心目标是进行文本匹配和答案选择,其实质是通过计算问题与候选文档之间的相关度来选择与问题相匹配的答案,而如何将词汇和文本所蕴含的深层语义特征用向量更准确的表示出来是解决这一问题的关键,进而才能提高模型的准确率。本文为了提高文本匹配与答案选择模型的准确性,所做的主要工作如下:本文提出一种结合多元特征的自动问答模型,通过在词嵌入层添加问题答案对之间的重叠信息(Overlap),句子中的词语位置信息(Position),以及逆向文档频率(IDF)特征,使得词向量矩阵能够蕴含更多语义信息,对后续神经网络模型学习到更加丰富而精确的文本向量表示起到了提升作用。本文使用的是基于注意力机制的卷积神经网络模型,通过注意力机制对卷积层输出的问答对特征矩阵进行加权,可以在问答对之间建立联系,使得文本中的关键信息将会发挥更大的作用。另外使用不同大小的多种滤波器可以捕获到句子中不同长度的抽象语义特征并组合起来,可以使得卷积神经网络的答案选择准确率得到提高。本文在NLPCC 2016 DBQA的数据集上进行了实验验证,通过与传统方法和baseline进行对比,并且对本文所提的扩展特征进行了单一分析对比和组合分析验证,实验结果表明,本文所提模型的MAP、MRR等指标的结果都有一定程度的提高,进而可以证明上述方法的有效性。
其他文献
党的十九大强调指出:党的领导是中国特色社会主义最本质特征,是中国特色社会主义制度的最大优势。中国共产党是最高政治领导力量。党政军民学,东西南北中,党是领导一切的。这
虚拟学习社区(VLC)由人员、"物"和学习信息三大要素组成,具有社会性、学习性和技术性三大特征。小学教师继续教育课程教学(学习)中存在着学习时间短、教师和学员在时空上处于
化学治疗对肿瘤细胞杀伤能力强,因此作为肿瘤外科手术治疗后的首选治疗手段,但由于用药剂量较大,对人体正常组织细胞易造成伤害。多功能的药物载体具有实现低给药剂量,减少对
在新农村建设的背景下,对当代农民进行社会主义核心价值观的教育和引导可为新农村建设提供精神动力和价值导向。能否实现在广大农村中普及社会主义核心价值观的培育,在农民内
我国正处在由计划经济向市场经济全面转型时期,计划经济时期特有的单位制在此时呈现出消解或者是强化的特点。面对计划经济时期单位制的逐渐取消及福利的全面禁止,单位制的个
电磁轨道炮是未来舰炮发展的主要趋势之一,长期以来一直备受关注。本文根据电枢在轨道炮内运动过程中导轨的受力情况,建立轨道炮简化模型,并根据其动力学方程推导出轨道炮设
试验以百合为试材,研究了含不同浓度的6-BA保鲜剂对鲜切花失水量、吸水量、水分平衡值、鲜重变化率等品质的影响。结果表明:在瓶插处理的前期,各处理与对照相比,含不同浓度6-
目的通过测量新生儿耳郭数据,为新生儿耳郭畸形的诊治及耳郭畸形矫正器的研发设计提供参考。方法对云南文山地区出生7 d内的186例新生儿372只耳郭的容貌耳长、容貌耳宽、形态
PIPD纤维因其具有优异的性能受到越来越广泛的关注,因此加深对PIPD纤维的研究能够完善其综合性能,扩展纤维应用领域。本文研究PIPD纤维热处理后及紫外老化处理后纤维结构及性
<正>我儿子从小是个老实孩子,很让人放心。但上了小学之后他竟然爱说谎话了。比如下午放学后告诉我们去同学家写作业,实际上是和一些男孩子在操场上疯玩。反复教育批评都没什
期刊