论文部分内容阅读
传统的信息检索系统均使用关键词组合作为系统输入,忽略了问句语义的多样性和语言结构的分析。问答系统能够接受用户以自然语言形式描述的问题,并能从大量异构的数据中查找或推断出用户问题的答案,提高用户查询效率。因此问答系统成为信息检索技术向人性化、智能化方向发展的一种必然趋向。问句分析的目的是明确用户意图,有效地定位到正确答案。因此,问句分析是问答系统的核心技术之一,而问句分类是问句分析的重要组成部分。在深入学习了目前中文问句分类及问答系统相关研究方法的基础上,本文提出了基于最大熵模型和双向长短期记忆人工神经网络(Bi-LSTM)模型的问句分类方法,具体研究工作如下:(1)研究了基于最大熵模型的问句分类方法。该方法把句法分析和词向量等语义知识运用到问句表示中,研究了问句的词汇特征、句法特征和词向量特征对问句粗分类准确性的影响,实验结果表明,相对于其他特征,词向量特征对问句粗分类取得了较好的效果,准确率达到88.75%。(2)研究了基于Bi-LSTM的问句分类方法。基于最大熵模型的问句分类方法需要人工提取问句的特征,带有一定的主观性。而基于Bi-LSTM的问句分类方法能够自主地学习问句的句法和语义特征,避免了人为因素带来的干扰。在分类模型中,本文使用了词语、词性和位置特征,并将这三种特征向量融合得到的词嵌入作为模型的输入,然后将输出结果通过最大池化层(Max Pooling)和Softmax层来完成问句特征提取和问句粗分类的工作。实验结果表明,该方法在粗粒度分类上准确率达到92.38%。(3)研究了问句分类在知识库问答系统中的应用。本文借助问句分类特征,再结合相似度、编辑距离和共现特征,利用Ranking SVM算法对候选答案进行排序。在NLPCC2016开放域知识库问答系统的评测任务的数据集上进行实验,结果表明,将问句分类应用到知识库问答系统的答案排序中,有助于提高答案识别的准确率,其准确率达到74.49%,召回率达到83.20%,平均F1值达到76.13%。