基于“清朗”行动的微博热门词条的文本分类研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:lich1234554321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技和网络的发展为社交媒体应用的衍生提供了一定基础,进而网络媒体在人们的日常交际和获取信息等活动中担任着不可估量的角色。其中新浪微博作为社交网络媒介,热搜功能也逐渐成为人们获取每日新闻和时事热点的重要途径之一。而随着微博热搜功能日渐普及,大量的数据信息也随之涌现出来,其中生成的短文本数据隐藏着许多有用的信息。这类从社交媒体中产生的短文本数据具有数量大、文本长度短、稀疏度高、信息缺乏共享的上下文、非官方表达方式和单词共现的特点,导致使用普通的特征提取方法难以获得有用的信息,使得这类短文本分类任务变得富有挑战性。同时,国家互联网信息办公室为了“清理”网络平台的乱象,坚决地开展2021“清朗”专项“大扫除”行动。为了解决短本分类中的问题和对“清朗”专项行动的效果进行评估,本学位论文基于微博热搜数据这一真实课题进行研究,具体成果如下:(1)构建LDA和Word2vec的语料库。采用Word2Vec词向量训练方法,解决以往文本向量描述方法中存在数据缺失或为零和高维度的问题,以及运用LDA模型对词向量进行加权运算,从而构成语料库和制作数据类别标签。(2)基于LDA和Word2vec词向量扩展的CNN和Bi LSTM方法针对社交媒体领域设计一个微博热搜词条短文本分类系统。将新构成的语料库作为输入样本,搭建基于深度学习网络CNN与Bi LSTM融合的文本分类模型(WL-CNN-Bi LST M)。该模型能够有效提取微博热搜词条短文本中隐含的特征,从而实现对短文本进行主题分类。结果表明,WL-CNN-Bi LSTM模型的评价结果比卷积神经网络、长短期记忆神经网络、门控循环单元、双向长短期记忆神经网络好。(3)统计分析分类结果。具体使用核密度估计方法分析在“清朗”专项行动开展前后微博热搜主题的热度以及每个主题热度分布的动态特征和差异。结果表明在2021“清朗”专项行动开始后,即在2021年6月15日至2021年12月31日微博热搜词条内容中关于娱乐和广告主题的热度呈现下降趋势,而体育、社会、日常分享生活等主题的热度呈现上升趋势,从而说明微博热搜平台得到有效地整治,该行动具有良好的成绩。但由于微博热搜词条内容具有很强实时性特征,所以语料库可以通过连接网络更新的方式进一步优化模型。本研究在广泛使用不同的深度学习方法实验后,验证了该方法有一定的优越性,并且为新媒体短文本分类领域作出了贡献。
其他文献
随着经济的发展,人们的出行依赖公共交通工具程度越来越高,在疫情频发的当下,人们出行安全愈发受到重视,病毒静态传播范围有限,但大规模人员活动会带动病毒大范围的快速传播。在高铁站、地铁站等交通枢纽中,空间相对密闭,人员行为复杂,尤其是换乘通道中,人员大规模活动,对于其中人员运动的研究愈发迫切。国内外研究中,仅对单人运动进行研究,并未考虑过在狭长空间中人群的运动对于流场的扰动作用,人员并行运动对于周边流
学位
随着大数据时代的来临,不平衡分类问题在更多应用领域中被人们所关注。由于传统的分类算法通常建立在各类别样本错分代价相同且数量相等的假设之上,导致这些方法在实际应用中效果甚微。在处理不平衡分类问题时,对原始数据集进行重采样以及改进传统分类算法是两个主流的解决思路,此外,少数类样本识别率低下是不平衡分类问题的主要难点,而在少数类样本中,非安全样本往往具有更大的分类难度,但同时这也是提升算法分类性能的重要
学位
紫外/氯高级氧化技术(UV/Cl2 AOP)能够在水厂现存的氯消毒的基础上原位引入高活性的HO·和多种氯类自由基,从而有效去除水体中难降解有机污染物,在饮用水深度处理方面具有较大的应用潜力,是当前的研究热点。但氯类自由基能够和水体中天然有机物发生反应生成高毒性消毒副产物(DBPs),是UV/Cl2在水处理中应用的一个潜在问题。与此同时,水体中存在的溴离子、铵根离子和硝酸根离子会使氯代消毒副产物(C
学位
真菌气溶胶污染危害人员呼吸健康并引发物资霉变。以长江中下游地区为代表的梅雨时期,真菌滋生更为肆虐,而空调系统中表冷器在与湿空气换热时易在表面积累灰尘并产生大量冷凝水,形成促进真菌增殖的有利条件,而沉积在表冷器表面的真菌也能被送风气流二次气溶胶化进入室内,增大人员吸入风险。因此,明确梅雨时期空调表冷器对送风中真菌气溶胶的浓度、粒径及群落的动态变化规律对保障室内人员呼吸健康与物资安全具有重要意义。且目
学位
随着经济快速发展,为拓展城市空间、提高交通运输能力,我国开展了诸如地铁、隧道等众多地下工程的勘探和建设项目。在开发和利用地下空间的过程中,遭遇到埋藏在浅层地层的高压可燃性气体—浅层气,在我国江浙沿海、长江三角洲等区域均探测到有其存在。浅层气具有一定的资源属性,但是在土木工程建设中,通常将其视为潜在的地质灾害,由于浅层气具有一定的赋存压力,在含气区域进行勘探作业时需要重点关注因井底压力失控而造成的浅
学位
近年来,我国产业结构调整和城市发展转型导致工业企业搬迁遗留场地存在的有机物、重金属污染等生态环境问题,严重制约了土地的安全再利用。为有效控制污染物在地下水土中的运移,研究防渗截污性能优良的竖向隔离屏障技术、开发高性能的改性膨润土是我国工业污染、固废填埋场地修复技术发展和建设美丽中国的迫切需求。本研究通过试验、分子动力学模拟和理论分析对羧甲基纤维素钠(CMC)改性膨润土和十六烷基三甲基溴化铵(CTM
学位
随着我国股市规模的不断壮大,股票市场与宏观经济之间的相互作用也越发显著.因此股价预测等问题受到了众多学者的广泛关注.大量金融实证研究表明股票价格具有非线性和尖峰厚尾的特点,多数金融风险问题也往往存在于厚尾之中.除此之外,股票价格极易受到复杂因素的影响引起突变,从而出现跳跃现象.为了弥补高斯过程的不适用性,并基于α-稳定过程能够很好的描述尖峰厚尾和跳跃现象,以及马氏链可用于拟合股市的牛熊交替.本文提
学位
近年来,连栋玻璃温室的应用日益广泛,但因其成本高、技术尚不成熟等原因,我国连栋玻璃温室在使用中仍面临许多问题。在冬季,由于温室没有明显的保温能力,室内外温差小,导致加温能耗大。而夏季,受太阳辐射的影响,温室内部堆积的热量过多,不利于作物生长。因此,通过内遮阳保温幕和气泡膜多层覆盖的方式来降低温室冬季夜间加温能耗以及通过不同遮阳工况对夏季温室环境的调控来满足不同作物对温度的需求是两个亟待解决的问题。
学位
随着我国互联网信贷市场的快速发展,网上信贷交易规模和金额大幅攀升,信贷方式以及信贷业务面向群体也变得更加复杂多元化。金融企业的核心是风险控制,有效的风险防范是保持稳定收益的关键因素,所以事前识别出潜在的违约客户对降低信用风险具有重要意义。从惩罚算法来看,模型对违约客户的误分类成本要高于履约客户,风险防范应当重点关注样本中违约客户的分类精度。而在正常的信贷业务中,客户违约事件的发生比例很小,信贷数据
学位
药物设计与发现是药物研发的重要阶段,目的是发现与特定靶点结合后具有活性的苗头化合物。传统的方法是通过高通量实验筛选,但耗时长、支出高,且成功率低。随着计算机技术的飞速发展,虚拟筛选技术逐渐成熟,这是通过计算机从大型化合物数据库中筛选活性化合物的一种方法,可大大缩短筛选苗头化合物的时间,也提高了筛选的有效性和准确度。本文使用DUD-E、MUV和Kernie三个数据集进行实验,建立了一个基于结构的药物
学位