Text Classification Based on Graph Convolutional Neural Network with Intimacy Matrix and Text Linkin

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:heritage102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,基于互联网技术的应用在人们的日常生活中得到了广泛应用,大量的数据随着这些应用的使用而产生,在这些数据中有相当一部分是以文本方式存在的。又由于现在信息传递的速度非常快,这使得人们每天都会面对大量的文本信息。人们在处理这些信息时会出现力不从心的现象。人们为了能够快速的得到对自己有用的文本信息并且能够快速的利用这些文本信息就必须对这些文本信息进行处理。而文本分类就是对文本信息处理时最重要的一步。因为不同的文本信息可能拥有不同的处理方式,所以只有准确的对文本进行分类,才能够高效的对文本进行处理。文本分类在现实生活中具有很重要的意义。对于个人来讲文本分类可以使人们更快的找到或者利用对自己有用的文本信息。例如,在信息发达的今天,很多人在办公中都会使用电子邮箱,但是电子邮箱中收到的可能不是你想要的电子邮件,还会存在一些垃圾邮件比如诈骗邮件,木马邮件以及广告邮件。为了避免用户淹没在垃圾邮件的汪洋里,许多邮件系统都会使用文本分类技术帮助电子邮箱使用者过滤垃圾邮件。在现实生活中文本分类还有如下几个方面的应用。根据主题对新闻进行分类,可以通过文章中所讲述的内容或者结合着文章的标题来对新闻文章进行主题类别的划分。例如娱乐新闻,财经新闻,政治军事新闻等类别;情感分析,将文本分为正面和负面两类或者多个类别,一般应用于对商品和服务的评论上面,比如对淘宝商品或者某一电影的评论。但是最重要的应该是作为其他自然语言处理系统的一部分,比如智能问答系统和推荐系统等。文本分类自上一世纪六十年代出现至今已经经历了许多年,在最初时,文本分类主要是基于知识工程的分类,但是该方法有很多缺点,第一必须要由需要分类领域的专家来手工定义分类的规则,这种分类的精确度低,并且费时费力。但是随着机器学习的崛起,文本分类开始转变为基于机器学习和统计方法的分类。这种分类需要将已标记的数据作为输入来训练分类器,然后使用建立好的分类器对未还没有完成分类的文本进行分类。这种方法与之前的方法相比不需要领域的专家制定规则,准确度有一定提高并且可以适用于多个领域。但是在这个时期,另一个问题又出现了,那就是需要人工提取特征,特征的提取对分类的结果有很大的影响。近年来随着深度学习的发展,基于深度学习的文本分类方法开始兴起。例如Facebook工程师Joulin等提出的FastText和Kim提出的Text CNN等方法,都在文本分类上取得了不错的结果。近些年,伴随着图神经网络的兴起,越来越多的人开始尝试在图神经网络上做文本分类。例如Kipf和Yao等都在图神经网络上做了文本分类的研究,同样也取得了不错的结果。但是这些方法中存在如下问题:1.文本连接问题。这些文本分类算法都是将文本当作一个独立的个体,从而忽略了文本与文本之间的关系。而在一些情况下文本与文本之间的信息在分类的过程中具有很重要的作用,例如前文提到的论文分类和网页分类。在进行论文分类和网页分类时,文本之间的联系包含着非常重要的信息,对分类结果起到至关重要的作用。比如在进行论文分类的时候,论文之间的引用关系就非常重要,因为论文引用和被引用的论文往往和论文有着同样的分类。如果正确的使用该关系对论文进行分类,那么分类结果准确度将会有一个重大改善。2.图结构稀疏度问题。在以上基于图神经网络的文本分类中,所建立的图模型包含着许多边的。而这些边对节点不一定都起到正确的作用。这些边可能会给节点带来错误的信息或者无用的信息,并且随着卷积层数的增加。这些边加剧了拉普拉斯平滑的产生,最终使所用顶点都是不可区分的。为了解决上述问题,文本提出了基于带有亲密矩阵和文本连接的图卷积神经网络(GCN-BIM+BT)的文本分类方法。该方法主要做了如下两个方面的改进:1.在文本与文本之间关系方面。与已有的图卷积神经网络模型不同的是,本文中提出的模型在构建图结构的时候,建立了文本与文本之间的联系。使得文本节点可以从别的文本节点中学到信息。本文中是根据文本相似度来建立文本与文本之间联系。首先对建立一个大型语料库,并对其中的单词进行编码,本文使用Word2Vec将单词转换成向量。紧接着使用TF算法总结各个文本的词频,结合之前得出的单词向量将文本转换成对应的文本向量。最后计算文本间的余弦角度,当余弦角度大于某一直时就建立两个文本之间的边,即在图架构的邻接矩阵对应的位置置1.2.在图稀疏度方面。本文提出了一种过滤方法,将会过滤掉和顶点关系不亲密的边,保留和顶点关系亲密的边。而是否保留的依据是根据亲密度矩阵。本文中所使用的亲密度矩阵是根据PageRank推到出来。PageRank算法在深度学习领域有着重要应用,尤其是在推荐系统中。根据PageRank算法可以得出从顶点A到达顶点B的概率。同理这种概率我们可以看作成亲密度,即顶点A与顶点B的亲密度。所以我们可以根据亲密度矩阵来过滤对两个顶点都不重要的边,从而使得图卷积神经网络在训练的过程中收到的干扰降低,并且随着卷积层数量的增加,拉普拉斯平滑得到一定程度的缓解。为了验证上述两个方向的改进的有效性,本文将GCN-BIM+BT模型拆解为三种模型分别进行相应的实验,这三种模型分别是具有亲密度矩阵的图卷积神经网络(GCN-BIM),建立文本间连接的图卷积神经网络(GCN-BBT)和GCN-BIM+BT。本文所使用的数据集有引文网络数据集:Cora数据集,CiteSeer数据集和PubMed数据集,和一般文本分类数据集:R52数据集,R8数据集,20NG数据集,OH数据集和MR数据集。和本文实验数据进行对比的基准实验都是来自以往文本分类模型,且对比数据也都来自与对应的论文。首先本文现在引文网络上对GCN-BBT进行了文本分类的测试,发现该模型在绝大部分数据集上有着很不错的表现,表明了在基于图神经网络的文本分类中使用文本间连接是有必要的,也是重要的。紧接着有在MR等一般文本分类数据集上对前面三种模型都做了文本分类的实验。发现了具有过滤层的模型比没有过滤层的模型分类结果要好一些。最后又测试了卷积层层数和标签率对文本分类的结果的影响。发现标签率在文本分类中非常重要。在测试图卷积层数对文本分类的影响时发现没有过滤层的模型在随着卷积层数的增加准确度急剧下滑,而有过滤层的模型在随着卷积层的增加时,准确度下滑的相对满了一些。这表明过滤层在对抗拉普拉斯平滑时起到了一定效果。总的来说,通过实验,本文提出的基于带有亲密度矩阵和建立文本间联系的图卷积神经网络的文本分类模型有着不错的表现。但是在对抗拉普拉斯平滑上效果还是不理想。
其他文献
低共熔溶剂(DES)是一种类离子液体,由氢键给体和氢键受体混合而成。由于其制备简单、廉价易得、组成可调,可作为溶剂应用于有机反应和萃取分离中。低共熔溶剂通常呈中性或弱碱性。尽管很多酸催化剂广泛用于有机合成中,寻找一种新的绿色酸催化剂仍然是绿色化学和催化化学的难点。目前,强酸性低共熔溶剂的研究报道很少。本论文制备了一种强酸性低共熔溶剂,并以其为催化剂考察了多种有机转化反应,获得了良好的应用效果。在反
密码分析是一门研究利用特殊手段解密未知密码信息的学科。其中,差分分析是一种通过选择明文进行密码分析的攻击(分析)方式。日本密码学家Matsui(松井)于1995年发明了 Matsui算法,该算法长期以来都是差分分析自动化的主要方法——其主要贡献是攻破了 1 6轮的DES加密算法。相较于MILP(混合整数线性规划)等依托数学分析工具的自动化搜索方式,Matsui算法更加注重于加密算法本身的结构特性,
永磁同步电动机(permanent magnet synchronous motor,PMSM)相比于其它类型电机,具有结构紧凑、可靠性高、运行效率高、功率密度大、损耗小、外形尺寸设计相对灵活等诸多优点,故其应用范围变得越来越广泛。近些年来,为了降低电机调速系统成本、提高系统可靠性以及拓宽电机的应用场合,无传感器控制系统的应用逐步成为该领域的研究热点。然而转子位置跟踪速度、估计精度以及系统的稳定程
本文设计并实现了一种基于micro:bit的多功能扩展板。这种设计主要包括硬件和软件两个部分。设计的主要目的是为了扩展micro:bit的功能和性能。硬件设计的工作主要是在用Altium Designer 2019画出本文提出的扩展板的原理图,并根据原理图绘制相应的PCB电路图用于进一步加工。同时,原理图和PCB图都进行了相应的软件仿真测设并且加工得到了实物。集成在micro:bit扩展板上的各种
车牌识别技术作为计算机图像视觉识别研究领域的一个热门研究课题,在计算机发展的年份中已经不断有新的算法和技术手段被应用进来。常见的车牌检测识别一体化系统一般使用图像处理的基本图像预处理手段和基于模式识别的匹配技术进行识别。汽车车牌本质上可以看作汽车的身份证,车牌与汽车是唯一绑定的关系,通过对于车牌信息的准确获取,便可以获取到与当前车辆相关的各种信息。在常见的交通管理中,对于车牌的准确识别能够大幅提升
自适应波束形成技术作为阵列信号处理技术中的关键技术,在通信、雷达、射电天文、地震勘探、声纳、电子对抗等领域应用广泛。自适应波束形成技术可以定向地接收空间中某一特定方向上的信号,阻止其他方向上的信号进入系统造成干扰,具有空域滤波的效果。在无线通信系统中,自适应波束形成可以提高频谱利用率,扩充信号容量。随着无线通信需求的爆发式增长和无线通信技术的飞速发展,5G通信技术即将进入商用,未来智能设备将工作在
随着网络信息时代的到来,突发公共卫生事件中网络谣言的传播方式和特征发生了巨大变化,对事件本身的发展和社会秩序都造成了恶劣的影响,在此背景下,研究如何有效应对突发公共卫生事件中的网络谣言就显得尤为必要。本文在对国内外学者的相关研究成果进行研读的基础上,综合公共管理学、心理学、政治学等多学科视角,采用文献研究法、案例分析法和内容分析法,以新型冠状病毒性肺炎疫情期间的网络谣言治理为例,选取腾讯较真平台于
随着光通信行业的发展,人们对带宽的需求越来越高。单模光纤的通信容量已接近香农极限,难以满足日益增长的通信需求。为了克服光传输的能力限制,许多研究人员致力于空分复用的研究,这为光传输开辟了一个新的维度。模分复用作为空分复用的一种技术,通常采用由少模光纤支持的正交空间模式并行传输数据;该技术能够成倍提升单根光纤的容量,拥有广阔的前景。模分复用器和解复用器是模分复用系统的关键器件之一,本文提出了两种新型
人类生活的世界是相互连接的,实体可以被视为具有不同属性的网络结构上的节点,不同的实体之间根据属性的差异又各自具备不同的相互关系。对于实体之间依据属性区分进行关系建立的操作被成为关系数据建模。近年来,关系数据建模主要跟从图深度学习和统计关系学习两个领域。图神经网络能够利用数据的属性和结构,通过非线性的神经网络内层,对目标进行端到端的训练和输出,统计关系学习方法可以建立标签之间的依耐性,可以使得这种学
视觉目标跟踪是机器视觉领域中一个非常重要的分支,在智能制造、安防监控、无人侦察、无人驾驶、人机交互和智能诊断等领域有着十分广阔的应用。给定视频目标初始化信息后,视觉目标跟踪旨在对后续视频目标进行位置定位、尺寸估计等。目前已有许多研究者对其进行研究,并在一些场景中取得了不错的跟踪精度。然而,在具体的应用当中,视频目标往往会处于十分复杂的场景,可能出现遮挡、高速运动、目标抖动、光照变化、目标形变和背景