基于深度学习模型的问题分类

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lxl_0598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题分类是问答系统的重要组成部分,能够有效地提高问答系统的性能。问题分类是短文本分类的一种,它能够为每个问题分配一个标签,这个标签代表的是问题的答案的类别。在问答系统中,问题分类能够对问答系统的结果进行约束和过滤。近些年,问答系统吸引了大量的研究者,作为问答系统的关键技术之一的问题分类也随之受到重视。早期的基于规则的问题分类方法通用性差,后来的基于机器学习的问题分类方法需要人工制定特征提取策略,而且特征提取和分类相对独立,从而导致了分类过程中的误差累加。最近,深度学习开始广泛地应用在问题分类中。在循环神经网络中,循环层的梯度消失或爆炸问题是目前的研究热点。虽然长短期记忆模型(LSTM)相对于简单循环神经网络(SRN)在解决长期依赖问题有了很大的提升。但是在实际应用中,还是不能有效地处理具有复杂依赖关系的长序列输入。导致出现这个问题的本质是循环层的误差在反向传播时会连续乘以一个大于1或小于1的值。针对这个问题,基于Attention机制和长短期记忆模型(LSTM)提出了一个新模型Att-LSTM。主要的改进地方是将连续的多个前面时刻的输出共同作为当前时刻的输入,即增加了连续的循环跳跃连接到输入模块。并且引入了Attention机制对这些跳跃连接进行加权求和。此外,控制信息流动的方式也做了相应的改进。实验证明,Att-LSTM在学习长期依赖和捕获局部特征方面的性能得到了显著的提高。在Adding Problem中,随着序列长度的增加,Att-LSTM的MSE基本不受影响。在pMNIST中,相对于LSTM的分类精度提升了4%。在实际应用中,单个神经单元很难学习到数据的特征表达。因此一般采用多层神经元或多种网络来构成复杂网络的方式。本文针对问题分类设计出一个基于卷积网络(CNN)和循环网络(Att-LSTM)的混合网络框架CNN-AttLSTM。由于一个问句由多个单词组成,一个单词由多个字母组成。所以混合网络框架分层地提取文本特征。CNN-AttLSTM从文本的字符开始提取特征,依次得到单词的特征向量和句子的特征向量。CNN用于提取文本中单词的局部特征,Att-LSTM用于学习文本中单词与单词之间的依赖关系。此外,还采用了Highway Network对词向量进行了微调。实验结果表明,在不需要额外的词向量转换工具的情况下,该框架在TREC上的分类精度提升了1.6%,在MSQC上提升了1.5%。
其他文献
针对激光技术领域常见的环形激光光束 ,利用圆域 Zernike多项式和环域 Zernike多项式进行模式法波前重构 ,结果显示 :如果环形激光光束波前相位畸变主要由低空间频率成分组成
主链由碳和氟组成的全氟聚合物(全氟烷烃)具有优良的性能。这些物质不仅在化学试剂的作用下特别稳定,具有极强的耐腐蚀性,具有很高的耐热性。此外它们还具有很低的摩擦系数,据此可
随着社会经济的不断发展和交通运输量的持续增长 ,利用智能运输系统 (ITS)来提高道路的利用率 ,道路交通的安全程度和道路使用的舒适性 ,已成为未来交通运输的发展方向。介绍
目的:通过对福州地区生活饮用水水污染情况的研究,详细说明福州地区生活饮用水污染特征,并对水污染的变化趋势进行分析。方法:随机选择福州市10个区县(市)各1家自来水厂,采集
如何在街区治理创新和城市空间优化中践行基层社会治理的核心理念,实现老城区规划以人为本,以居民需求为出发点,一个重要前提是探索和构建以利益共同体为基础、以功能调整为
伴随着社会发展,各种信息技术的发展也日趋成熟,这为我国高职英语教学方式的发展及创新提供了良好的基础。英语教学属于我国教学体系的重要组成部分之一,受传统教育模式的影
图图奥拉是为尼日利亚带来国际声誉的第一位作家。本文通过对其代表作《棕榈酒鬼》的分析 ,介绍他在创作中如何传承民族文化 ,如何表现当地口头文学的传统 ,如何使英语这种借
本文利用中国生猪养殖的成本收益资料和排污系数普查数据,分析了各地区不同规模生猪养殖个体的技术效率与环境效率状况。实证分析结果表明,我国西南和华北地区生猪养殖的环境
【目的】观察加味逍遥散调周法治疗肝郁气滞证乳腺增生的临床疗效及对血清性激素水平的影响。【方法】将60例肝郁气滞证乳腺增生患者随机分为治疗组和对照组,每组各30例。对
近年来,中国宫廷题材电视剧产生了很大的社会影响,掀起了收视狂潮。整体来看,宫廷题材电视剧的发展流变经历了三大阶段,即1982—1989年电视剧兴旺期,20世纪90年代以来电视剧