论文部分内容阅读
问题分类是问答系统的重要组成部分,能够有效地提高问答系统的性能。问题分类是短文本分类的一种,它能够为每个问题分配一个标签,这个标签代表的是问题的答案的类别。在问答系统中,问题分类能够对问答系统的结果进行约束和过滤。近些年,问答系统吸引了大量的研究者,作为问答系统的关键技术之一的问题分类也随之受到重视。早期的基于规则的问题分类方法通用性差,后来的基于机器学习的问题分类方法需要人工制定特征提取策略,而且特征提取和分类相对独立,从而导致了分类过程中的误差累加。最近,深度学习开始广泛地应用在问题分类中。在循环神经网络中,循环层的梯度消失或爆炸问题是目前的研究热点。虽然长短期记忆模型(LSTM)相对于简单循环神经网络(SRN)在解决长期依赖问题有了很大的提升。但是在实际应用中,还是不能有效地处理具有复杂依赖关系的长序列输入。导致出现这个问题的本质是循环层的误差在反向传播时会连续乘以一个大于1或小于1的值。针对这个问题,基于Attention机制和长短期记忆模型(LSTM)提出了一个新模型Att-LSTM。主要的改进地方是将连续的多个前面时刻的输出共同作为当前时刻的输入,即增加了连续的循环跳跃连接到输入模块。并且引入了Attention机制对这些跳跃连接进行加权求和。此外,控制信息流动的方式也做了相应的改进。实验证明,Att-LSTM在学习长期依赖和捕获局部特征方面的性能得到了显著的提高。在Adding Problem中,随着序列长度的增加,Att-LSTM的MSE基本不受影响。在pMNIST中,相对于LSTM的分类精度提升了4%。在实际应用中,单个神经单元很难学习到数据的特征表达。因此一般采用多层神经元或多种网络来构成复杂网络的方式。本文针对问题分类设计出一个基于卷积网络(CNN)和循环网络(Att-LSTM)的混合网络框架CNN-AttLSTM。由于一个问句由多个单词组成,一个单词由多个字母组成。所以混合网络框架分层地提取文本特征。CNN-AttLSTM从文本的字符开始提取特征,依次得到单词的特征向量和句子的特征向量。CNN用于提取文本中单词的局部特征,Att-LSTM用于学习文本中单词与单词之间的依赖关系。此外,还采用了Highway Network对词向量进行了微调。实验结果表明,在不需要额外的词向量转换工具的情况下,该框架在TREC上的分类精度提升了1.6%,在MSQC上提升了1.5%。