论文部分内容阅读
随着移动互联网时代信息技术的不断发展与广泛应用,文本信息正呈几何级的形式爆炸增长,如何从海量文档中挖掘出对用户最有用的信息已成为研究焦点。而文本分类作为文本数据挖掘技术中的关键手段,能帮助人们快速理解、组织、管理文本信息。按照分类后标签的数目,文本分类又可以分为:单标签文本分类和多标签文本分类。多标签文本分类更加符合客观世界的规律和特性,而单标签问题也只是多标签问题中特殊情况,多标签问题则是单标签问题更普适、广义的衍生。因此,多标签文本分类问题拥有着更常见的应用场景,在自然语言处理领域有着重要的研究意义和商用价值。虽然多标签文本分类问题应用广泛,但是因为多标签问题对数据表达的复杂性和标签输出空间的指数性,导致给其解决带来了更多挑战。研究表明,利用标签之间的相关性能给多标签分类问题带来指导性的帮助。目前,机器学习技术方兴未艾,在文本多标签分类问题也产生了很多解决方法,这些解决方法在处理多标签分类问题时绝大多数都没有考虑到标签的相关性。因此,本文围绕文本分类领域中的多标签分类问题从标签相关性的角度展开研究。本文研究工作主要有:1、本文详细阐述了多标签文本分类中的关键技术,包括文本预处理、文本表示、文本特征提取、分类算法研究等。在此基础上,本文结合多标签问题的特点进行进一步的分析,阐述了目前解决多标签文本分类方法的诸多局限性。这部分的工作为后续关于文本特征提取和多标签分类算法的设计奠定了理论基础。2、针对目前文本特征提取中关键词抽取的不足,本文在TextRank算法的基础上进行优化,提出一种基于PMI加权的TextRank关键词抽取算法。利用词汇之间的逐点互信息对词汇间初始关系进行衡量,进而构造词与词之间的影响概率传递矩阵,通过迭代计算使词汇节点的权重收敛,将词汇权重进行排序获取最终的关键词。通过实验表明,该方法在关键词提取上对关键词的精确率和召回率上较原始方法有明显提升,验证了改进算法在文本特征提取上的优越性。3、本文将所提出的的关键词抽取算法运用到文本多标签分类问题中。通过word2vec对抽取出的关键词进行向量表征,接着将这些关键词进行加权累加作为文本的向量化表示,由此构建好基于关键词的多标签分类模型的输入。同时,将训练样本的多个标签同样用词向量进行表征,进行特征融合后作为模型学习的目标。利用余弦损失作为模型训练的代价函数,由此来进行网络的训练。在预测未知标签文档的多标签时,通过网络输出在所有标签的词向量空间进行近邻检索,将与网络输出向量余弦距离最近的前k个标签作为预测的多标签。通过对比实验,验证了该方法在文本多标签分类能力上的稳定性及在标签语义扩展性上的可行性。4、本文也考虑到了关键词对于文本信息表征能力的不足,尝试了利用卷积神经网络进行文本特征抽取,同时消除关键词抽取步骤中抽取出错给文本表征带来的误差。在预测未知标签文档的多标签时,通过训练好网络的输出在所有标签的词向量空间进行近邻检索,由此得到多标签分类结果。同时,通过实验佐证了基于卷积神经网络的文本多标签分类模型的可靠性和稳定性。