论文部分内容阅读
随着互联网技术的高速发展,基于互联网技术的应用在人们的日常生活中得到了广泛应用,大量的数据随着这些应用的使用而产生,在这些数据中有相当一部分是以文本方式存在的。又由于现在信息传递的速度非常快,这使得人们每天都会面对大量的文本信息。人们在处理这些信息时会出现力不从心的现象。人们为了能够快速的得到对自己有用的文本信息并且能够快速的利用这些文本信息就必须对这些文本信息进行处理。而文本分类就是对文本信息处理时最重要的一步。因为不同的文本信息可能拥有不同的处理方式,所以只有准确的对文本进行分类,才能够高效的对文本进行处理。文本分类在现实生活中具有很重要的意义。对于个人来讲文本分类可以使人们更快的找到或者利用对自己有用的文本信息。例如,在信息发达的今天,很多人在办公中都会使用电子邮箱,但是电子邮箱中收到的可能不是你想要的电子邮件,还会存在一些垃圾邮件比如诈骗邮件,木马邮件以及广告邮件。为了避免用户淹没在垃圾邮件的汪洋里,许多邮件系统都会使用文本分类技术帮助电子邮箱使用者过滤垃圾邮件。在现实生活中文本分类还有如下几个方面的应用。根据主题对新闻进行分类,可以通过文章中所讲述的内容或者结合着文章的标题来对新闻文章进行主题类别的划分。例如娱乐新闻,财经新闻,政治军事新闻等类别;情感分析,将文本分为正面和负面两类或者多个类别,一般应用于对商品和服务的评论上面,比如对淘宝商品或者某一电影的评论。但是最重要的应该是作为其他自然语言处理系统的一部分,比如智能问答系统和推荐系统等。文本分类自上一世纪六十年代出现至今已经经历了许多年,在最初时,文本分类主要是基于知识工程的分类,但是该方法有很多缺点,第一必须要由需要分类领域的专家来手工定义分类的规则,这种分类的精确度低,并且费时费力。但是随着机器学习的崛起,文本分类开始转变为基于机器学习和统计方法的分类。这种分类需要将已标记的数据作为输入来训练分类器,然后使用建立好的分类器对未还没有完成分类的文本进行分类。这种方法与之前的方法相比不需要领域的专家制定规则,准确度有一定提高并且可以适用于多个领域。但是在这个时期,另一个问题又出现了,那就是需要人工提取特征,特征的提取对分类的结果有很大的影响。近年来随着深度学习的发展,基于深度学习的文本分类方法开始兴起。例如Facebook工程师Joulin等提出的FastText和Kim提出的Text CNN等方法,都在文本分类上取得了不错的结果。近些年,伴随着图神经网络的兴起,越来越多的人开始尝试在图神经网络上做文本分类。例如Kipf和Yao等都在图神经网络上做了文本分类的研究,同样也取得了不错的结果。但是这些方法中存在如下问题:1.文本连接问题。这些文本分类算法都是将文本当作一个独立的个体,从而忽略了文本与文本之间的关系。而在一些情况下文本与文本之间的信息在分类的过程中具有很重要的作用,例如前文提到的论文分类和网页分类。在进行论文分类和网页分类时,文本之间的联系包含着非常重要的信息,对分类结果起到至关重要的作用。比如在进行论文分类的时候,论文之间的引用关系就非常重要,因为论文引用和被引用的论文往往和论文有着同样的分类。如果正确的使用该关系对论文进行分类,那么分类结果准确度将会有一个重大改善。2.图结构稀疏度问题。在以上基于图神经网络的文本分类中,所建立的图模型包含着许多边的。而这些边对节点不一定都起到正确的作用。这些边可能会给节点带来错误的信息或者无用的信息,并且随着卷积层数的增加。这些边加剧了拉普拉斯平滑的产生,最终使所用顶点都是不可区分的。为了解决上述问题,文本提出了基于带有亲密矩阵和文本连接的图卷积神经网络(GCN-BIM+BT)的文本分类方法。该方法主要做了如下两个方面的改进:1.在文本与文本之间关系方面。与已有的图卷积神经网络模型不同的是,本文中提出的模型在构建图结构的时候,建立了文本与文本之间的联系。使得文本节点可以从别的文本节点中学到信息。本文中是根据文本相似度来建立文本与文本之间联系。首先对建立一个大型语料库,并对其中的单词进行编码,本文使用Word2Vec将单词转换成向量。紧接着使用TF算法总结各个文本的词频,结合之前得出的单词向量将文本转换成对应的文本向量。最后计算文本间的余弦角度,当余弦角度大于某一直时就建立两个文本之间的边,即在图架构的邻接矩阵对应的位置置1.2.在图稀疏度方面。本文提出了一种过滤方法,将会过滤掉和顶点关系不亲密的边,保留和顶点关系亲密的边。而是否保留的依据是根据亲密度矩阵。本文中所使用的亲密度矩阵是根据PageRank推到出来。PageRank算法在深度学习领域有着重要应用,尤其是在推荐系统中。根据PageRank算法可以得出从顶点A到达顶点B的概率。同理这种概率我们可以看作成亲密度,即顶点A与顶点B的亲密度。所以我们可以根据亲密度矩阵来过滤对两个顶点都不重要的边,从而使得图卷积神经网络在训练的过程中收到的干扰降低,并且随着卷积层数量的增加,拉普拉斯平滑得到一定程度的缓解。为了验证上述两个方向的改进的有效性,本文将GCN-BIM+BT模型拆解为三种模型分别进行相应的实验,这三种模型分别是具有亲密度矩阵的图卷积神经网络(GCN-BIM),建立文本间连接的图卷积神经网络(GCN-BBT)和GCN-BIM+BT。本文所使用的数据集有引文网络数据集:Cora数据集,CiteSeer数据集和PubMed数据集,和一般文本分类数据集:R52数据集,R8数据集,20NG数据集,OH数据集和MR数据集。和本文实验数据进行对比的基准实验都是来自以往文本分类模型,且对比数据也都来自与对应的论文。首先本文现在引文网络上对GCN-BBT进行了文本分类的测试,发现该模型在绝大部分数据集上有着很不错的表现,表明了在基于图神经网络的文本分类中使用文本间连接是有必要的,也是重要的。紧接着有在MR等一般文本分类数据集上对前面三种模型都做了文本分类的实验。发现了具有过滤层的模型比没有过滤层的模型分类结果要好一些。最后又测试了卷积层层数和标签率对文本分类的结果的影响。发现标签率在文本分类中非常重要。在测试图卷积层数对文本分类的影响时发现没有过滤层的模型在随着卷积层数的增加准确度急剧下滑,而有过滤层的模型在随着卷积层的增加时,准确度下滑的相对满了一些。这表明过滤层在对抗拉普拉斯平滑时起到了一定效果。总的来说,通过实验,本文提出的基于带有亲密度矩阵和建立文本间联系的图卷积神经网络的文本分类模型有着不错的表现。但是在对抗拉普拉斯平滑上效果还是不理想。