校园综合新闻聚类及其可视化研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:asjkdhfjkhasdjklfhjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
校园综合新闻作为一类特殊的新闻信息,主要是记录师生的校园生活。面对网页上大量的新闻,如何利用大数据相关技术快速地了解综合新闻的主要内容或类别,了解文本聚类的效果,对聚类的结果进行可视化,减少聚类的时间,这项研究可为想了解新闻主要内容或类别的信息需求者或相关研究者提供一定的研究思路。因此,对校园网的综合新闻进行研究,具有一定的意义。本文以采集到的11456条校园综合新闻为研究对象,运用自然语言处理和聚类相关技术,并用k-means聚类和Agglomerative聚类算法测试不同聚类方式的效果。主要研究内容如下:1.对聚类的类别数k的研究。面对事先不知其类别内容的大量新闻信息,如何提前了解其大致类别数的问题,本文采用了基于词频的方法来来确定新闻的类别数,并以词云图的方式展现出来。在本文的研究中,根据词云图,大致可以将校园综合新闻数确定为7个类别。2.为了提高文章的聚类效果,本文提出了采用基于文章主题的方法,这种方法通过提取每一篇文章的主题词来对新闻数据进行聚类,结果在聚类评估指标戴维斯保丁指数(DBI)值上表明,基于文章主题的聚类方法比基于原来基于词频-反文档频率(TFIDF)聚类的方法好。然后又提出来基于词频反文档频率和潜在语义分析相结合的聚类方法(TFIDF+LSA聚类),这种方法的实验结果表明,可以提高聚类的轮廓系数(SC)的值,卡林斯基原巴斯指数(CHI)的值,还能降低戴维斯保丁指数(DBI)的值。3.为了了解聚类的可视化效果,本文采用了t-SNE技术。本文将基于TFIDF聚类,基于文章主题聚类和基于TFIDF+LSA聚类这三种聚类方式进行了可视化对比,聚类结果表明,基于TFIDF+LSA聚类的聚类方式可以提高聚类的可视化效果,且从可视化实验结果来看,本文提出来的两种方法在不同聚类算法上还可以降低聚类的时间,提高聚类的速度,且以三种不同方式的k-means聚类聚为不同的类别时的误差平方和SSE看,将聚类的数目设置为7是比较合理的。总之,与原来基于TFIDF聚类的方法相比,本文提出来的基于主题的聚类方法可以降低聚类指标DBI的值,降低聚类的时间。本文提出来的基于TFIDF+LSA聚类的方法不仅可以提高聚类的效果,还能提高聚类的可视化效果,降低聚类的时间,且在误差平方和SSE上有良好的表现。图25表7参55
其他文献
社会化标签作为Web2.0时代由互联网用户产生的重要数据,用户在自由开放的网络平台中以自身理解为出发点对互联网Web资源进行评论与标注,产生大量资源、用户和标签(tags)的社会化标签信息。但社会化标签具有较强的独立性、自发性和公开性特点,导致其存在语义模糊、词语冗余和资源独立等问题。因此构建主题识别方法可以揭示社会化标签蕴含的潜在知识,本文针对社会化标签的主题识别问题进行以下研究工作:(1)针对
学位
目前我国煤矿行业隐患监管中存在监管重复、信息孤岛、数据失真以及信任机制匮乏等问题。针对上述问题,本文设计基于区块链的煤矿隐患数据共享方案,借助于区块链技术去中心、防篡改、可追溯等特性解决煤矿隐患信息存储的安全问题,同时实现多主体之间的数据共享功能,确保数据的真实可信、有效共享和准确追责。本文的主要工作如下:(1)提出了迭代演化机制的PBFT共识的改进算法。该算法简化PBFT共识算法中一致性环节,降
学位
近年来,深度神经网络在众多领域都取得了成功应用,比如,自动驾驶、人脸识别以及医疗系统等。但研究表明,深度学习模型在预测阶段容易受到对抗样本的攻击,导致目标模型以高置信度输出一个错误预测。该攻击给深度神经网络的应用领域带来了极大的安全威胁。为解决此问题,研究者们提出了对抗训练、输入预处理、特异性防御等防御方法。由于基于特异性防御方法往往只针对特定的对抗攻击进行防御,泛化性能较差。因此,本文从对抗训练
学位
在如今海量信息的时代,事件作为人们认知世界的基本单元,它们间存在着包含因果在内的各种语义关系。挖掘事件间的因果关系是对事件深度理解的必然要求,尤其是在突发类事件中,因为其发生的突然性,往往对社会造成不可估量的损失,所以准确的抽取突发事件中的因果关系对于预防突发事件和制定应对决策具有重要意义。目前的突发事件因果关系抽取研究中,经常存在着词特征不符合上下文语境,以及由于突发类事件文本中因果信息不足导致
学位
多形性腺瘤(PA)是一种良性肿瘤,大多起源于唾液腺,起自气管支气管的PA非常罕见,国内外文献基本为个案报道。原发性支气管肺癌现已成为全世界发病率、死亡率最高的恶性肿瘤,是男性癌症死亡的首要原因,在女性癌症死亡中成为仅次于乳腺癌的次要原因,因其症状的不典型性,往往在确诊肺癌时已处于晚期,因此造成了巨大的经济及社会压力。气管PA合并原发性支气管肺癌的病例目前未有文献报道,本文报道1例右肺下叶气管PA合
期刊
我国现有的煤矿井下辅助运输系统主要采用的是有轨电机车的运输方式,由于煤矿井下环境复杂、人员操作不当等因素,井下运输常常造成人员伤亡和财产损失。为了改善这种落后状况,必须进一步提高煤矿井下运输系统设备的智能化水平,而列车前方轨道识别技术是实现有轨电机车无人驾驶的重要技术。传统轨道识别技术对于环境明亮、形状为理想的直线型轨道有较好的检测效果,但在矿井复杂巷道环境下具有局限性,而基于深度学习技术的轨道识
学位
目的:通过临床研究,观察辛夷通窍汤治疗小儿过敏性鼻炎(肺气虚寒证)的有效性及安全性;同时基于网络药理学和分子对接技术初步探讨辛夷通窍汤治疗小儿过敏性鼻炎的生物学机制,以供临床参考。方法:本课题包括两个研究,(一、临床研究):病例选自天津中医药大学第一附属医院儿科门诊(2020年6月-2021年12月)符合过敏性鼻炎肺气虚寒证纳排标准的患儿110例,运用SPSS25.0软件随机分为两组,每组各55例
学位
共识算法是区块链技术的核心,在区块链性能与安全性等方面起决定性作用,共识算法成为区块链领域的研究热点。论文针对PBFT算法的不足之处进行全面且充分地分析,结合DPoS算法思想与评分机制对PBFT算法展开深入研究,提出一种改进的PBFT共识算法,本文的主要研究内容如下:(1)分析研究区块链不同共识算法的原理、应用领域及优劣,为联盟链共识算法的优化提供理论支撑。针对PBFT算法适用节点数少、主节点随机
学位
目的:本研究将通过回顾性分析CKD3-5期非透析患者的临床资料,从一般情况、生活方式、相关理化检查等角度分析CKD3-5期患者继发心衰的相关危险因素及中医证型分布特点,探讨CKD3-5期患者并发心衰的可控影响因素,为提高患者生活质量提供相应的理论依据。方法:采用横断面研究,收集2020年3月至2021年12月于天津中医一附院住院的CKD3-5期非透析患者,并依据纳排除标准共纳入210例患者,收集患
学位
社交媒体的发展,使得新闻的产生和传播变得更加容易。当前的新闻形式已不再局限于文本,而是由文本、图像、视频等多种模态结合而成,如何判断新闻的真假,只利用单模态的文本信息进行虚假新闻检测已无法快速准确的实现。另外,当前文本的虚假新闻检测主要通过对文本特征进行嵌入并训练模型,无法提取高阶的上下文语义。现有的多模态融合检测算法,对多模态新闻只是简单的特征拼接,未很好地利用多模态上下文语义之间的互补和融合。
学位