论文部分内容阅读
随着互联网技术的高速发展,人们对信息的获取日益便捷,各种信息分享平台不断出现。在线问答社区在此背景下应运而生,并且吸引了越来越多的用户,已经逐渐成为人们获取和分享信息的一种重要平台。在线问答社区蓬勃发展的同时,每天都会产生大量的新问题,为了能够有效地管理、组织这些问题数据,社区采用了标签这一大众分类的方式,为每个问题赋予一个或多个标签反映问题的主题。标签不同于一般的目录结构自顶向下的层次分类方法,各个标签之间是一种平行的关系,它以较少的代价细化分类。在线问答社区通过将问题标签化,有效地解决了问题资源管理的问题。目前在线问答社区问题标签由用户提出问题时给定,由于用户本身不同的知识背景,往往不能准确快速的选出合适且全面的标签来描述问题。为了解决这个问题,一些标签推荐方法被提出,旨在为用户在提问时推荐一系列高质量的标签供其选择,提高问题标注的效率和准确性。本文提出基于深度学习的标签推荐模型,运用深度学习的方法提取问题的语义特征对在线问答社区进行标签推荐工作,并且采用数据增强的方法提升模型性能,除此之外还提出基于深度学习模型的融合模型。本文的主要工作内容如下:(1)阐述了在线问答社区的问题标签推荐的研究背景和意义,分析了国内外研究现状,总结目前的研究方法及其优缺点,并研究了相关的理论和技术。(2)选取了合适的数据对象,并对数据进行解析提取,预处理和词向量训练,为本文研究的问题提供基础数据的支撑。(3)构建了三种基于深度学习的标签推荐模型,包括基于卷积神经网络的模型、基于长短时记忆网络的模型以及基于卷积循环神经网络的模型,研究了参数对于模型的影响,对比了深度学习模型与传统方法的标签推荐效果。(4)采用了数据增强的方法训练模型以及提出了融合模型,通过实验探究了它们的标签推荐效果。本文的实验结果表明,基于深度学习的标签推荐模型与传统推荐方法相比,推荐标签的准确率,召回率和F1值都有明显的提升。同时,采用数据增强的方法可以进一步提升模型的性能,融合模型的标签推荐性能比三种基本模型更好。