基于深度学习的半监督新闻文本分类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:qiyanru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的大数据时代,新闻文本信息呈现出爆炸式增长的趋势,而海量的新闻文本信息是杂乱无序的。面对爆炸式增长且杂乱无序的新闻文本信息,用户获取所需信息的难度和时间增加。文本分类技术能够科学有效地对海量新闻文本数据进行组织和管理。目前,随着深度学习在自然语言处理等方面取得的突破和发展,各种监督的深度学习算法已经用于新闻文本分类,它们能够有效地提取数据的特征进行分类,分类效果显著,但是需要大量的标记数据,然而实际情况中标记数据不易获取。半监督分类只需要少量标记数据,同时能够利用未标记数据提升分类效果。因此,本文将基于深度学习、利用半监督学习进行新闻文本分类。本文的主要研究工作为如下几点:1.构建基于深度学习的半监督新闻文本分类框架。该框架包括新闻文本获取模块、文本预处理模块、半监督新闻文本分类模块和测试模块。这四个模块分别进行新闻文本数据获取,新闻文本分词、去停用词、词向量化预处理,半监督新闻文本分类和测试分类效果。2.给出一种新闻文本数据的爬取方法。本文通过scrapy框架从新闻网页爬取了新闻文本数据,包括新闻标题和内容信息,利用Xpath解析定位数据。对于爬取的数据,使用正则表达式进行数据清洗,然后保存。爬取过程中,设置User-Agent假装为网页浏览来避免反爬虫机制。3.给出一种文本分词方法。在Bi-GRU-CRF的基础上结合一个平行的BiGRU-attention整合词典信息进行分词训练。一个Bi-GRU神经网络用来提取特征信息,另一个Bi-GRU-attention神经网络通过构建特征向量来获取词典信息。结合两部分信息输入到条件随机场进行分词。4.给出一种基于深度学习的半监督新闻文本分类方法。该方法结合伪标签学习和深度学习,可以利用未标记数据和少量标记数据进行新闻文本分类。首先,用少量标记数据训练Bi-GRU分类网络,然后利用训练好的网络预测未标记数据,并把预测结果作为伪标签。得到未标记数据的伪标签后,神经网络Bi-GRU提取标记数据和带伪标签的未标记数据的特征,然后用全连接层对特征向量进行降维,再用softmax函数进行分类。训练过程中,使用temporal ensembling算法集成多个迭代期的伪标签,提高伪标签的准确率;使用Dropout机制,来避免训练过程中出现过拟合现象。5.给出实验并进行对比分析。本文利用开发工具Pycharm和深度学习框架Tensorflow、Pytorch进行对比实验。在公开数据集PKU和MSR上,与主流分词算法对比测试本文给出的分词算法的有效性。在公开数据集cnews和通过本文给出的爬虫算法爬取的数据集znews上,调整标记数据、未标记数据的比例,与主流新闻文本半监督和监督分类算法对比测试本文给出的半监督新闻文本分类算法的有效性。对比测试实验的结果表明,本文给出的分词算法与当前主流的神经网络分词算法相比性能更优,在各项评价指标上都有一定程度提升;半监督新闻文本分类算法与主流的半监督分类算法和监督分类算法相比分类效果更好,充分说明本文给出的分类算法的有效性。通过多组对比实验的结果表明,本文给出的基于深度学习的半监督新闻文本分类算法可以在有效减少标记数据的需求的同时,进行有效分类,也能让用户快速、准确获取所需的新闻信息,分类结果甚至可以用到个性新闻推荐、新闻信息检索等领域。
其他文献
人口空间化是将基于行政单元的人口更准确的展布于地域空间中,能更充分的展示人口空间分布信息,对施行人口精细化管理,协调人口与资源、环境、发展之间的矛盾具有重要意义。青藏高原是世界屋脊,掌握青藏高原人口分布信息有助于完善全球人口分布特征,如人类居住生活的最高海拔。其次,青藏高原与缅甸、印度、不丹、尼泊尔等多个国家接壤,其地理位置具有重要的战略意义,习近平总书记也曾多次强调“治国必治边,治边先稳藏”,稳
近年来随着互联网技术和存储设备性能的提升,各类复杂系统衍生出大量的数据。其中很大一部分数据是以时间为刻度计量的,按照时间的先后顺序将观测值记录下来的有序序列称为时间序列。对以时间为变量的序列进行分析,获取其所包含的数据特性,根据数据特性以及历史数据之间的变化规律构建数学模型,并将其外推到下一时刻预测未来时刻或者一段时间的观测值。在现有的研究中,时间序列预测已经成功应用在不同的领域,如:通信工程、股
作曲在西方音乐教育中是一门开设历史悠久,理论丰富,教学系统完备的学科。在我国作曲专业的开设可追溯自上个世纪20年代,辛亥革命后,以民主与科学为标志发起了新文化运动,使民主革命斗争和文化建设跨入新阶段。音乐教育事业在这一时期得到发展,并成立了以北大附设音乐传习所、国立音乐院为代表的专业音乐教育学院.其中国立音乐院是最早建立作曲系的专业音乐学院,在成立初期便引入欧洲音乐学院作曲专业设置模式与课程安排,
课堂教学是我国所有教学形式中最为通用的形式。学生在课堂中的学习状态对于学生的课堂学习以及教师的授课过程都有影响,它既是影响学生学习质量的主要因素,又是反映教师教学质量的重要依据。在传统的课堂教学中,教师要在授课的同时关注全部学生的学习状态,这对经验不足的新教师来说无疑是一个较大的考验。同时,教学管理者要对教师的教学质量进行评价,也只能通过人工深入课堂的方式来观察学生的上课情况以及教师的授课情况,这
土壤矿物表面静电性质直接影响了矿物间的相互作用力,进而强烈地影响着土壤胶体凝聚以及土壤团聚体的形成、稳定或分散,控制着水分运动、水土流失以及农业面源污染等一系列宏观现象的发生。原子力显微镜(Atomic Force Microscopy,AFM)作为一种力学测量仪器在土壤矿物间作用力的测定中应用广泛,基于AFM测定得到的探针与矿物间相互作用力,用Derjaguin-Landau-Verwey-Ov
在教学中,学生学习的核心知识是利用教科书来展现的,另外教师实施教学活动也是基于教科书而进行的,学生基础知识的学习与拓展均建立在教材基础之上,因此,教材编写的合理与否在一定程度影响着学生的学习效果和教师的教学质量。随着教育的不断发展,课程的改革,全国同一本教材的局面被打破,这也使得同一学科有不同版本的教材,同时教育主体对教科书领域的研发力度也在不断提升。英语作为重要学科之一,教材研究同样备受关注。教
场馆学习作为非正式学习的典型代表,受到了国家、各级教育机构、广大学生、家长和教师的推崇和支持。在场馆学习中,学生能够拥有更丰富的学习资源和开放的学习环境,能够与实地、实物进一步的交流和融合,提升了学生的社会化能力,也极大程度的弥补了学校教育的不足。因此,近年来场馆学习受到了国内外研究者们的青睐,相关研究也逐步丰富起来。本研究聚焦于小学生这一群体,通过质性研究和量化研究相结合的方式,旨在形成一个较为
压电陶瓷是现代社会中一种不可或缺的重要功能材料,利用其电能和机械能相互转换的性质而被广泛应用于医疗、电子和军工等现代高科技领域。而目前主流压电陶瓷为铅基陶瓷,其毒性对环境和人类社会不利,因此无铅化是压电陶瓷发展的必定趋势。无铅压电陶瓷中铌酸钾钠基((K,Na)NbO3)陶瓷由于其优秀的压电性能等优势,在环境友好型材料中受到巨大关注,也是压电陶瓷领域一大研究热门。为了将(K,Na)NbO3基陶瓷的压
家庭暴力不仅是一个现代问题,古已有之。但是对于家庭暴力的认知,古今差异较大。在今人看来,家庭成员之间的身体侵害行为很大程度上构成了家庭暴力的实质内容,而在古代社会,家庭暴力在很大程度上属于可以容忍的,只有超过容忍程度的才被时人视为家庭暴力。家庭暴力的发生无疑会给家庭关系蒙上阴影,而家庭是社会的重要细胞,这样一来,家庭暴力对社会也会造成深刻的影响。宋代时值中国古代重要社会转型期,即唐宋变革时期,由唐
蛋白质对于调节和执行细胞的生命活动具有重要作用。只有少数的蛋白质独立发挥作用,大多数蛋白质通常通过与其它蛋白质或分子相互作用发挥其功能。构建和分析大规模蛋白质相互作用网络不仅有助于理解生物分子相互作用机制,还是探索蛋白质功能的一种重要手段。尽管目前在蛋白质-蛋白质相互作用研究方面已经取得了重大进展,但现有的研究仍停留在基因水平上。蛋白质相互作用中已知的“蛋白质”通常被认为是基因通过可变剪接产生的最