基于微博流的灾害信息提取系统设计与实现

来源 :武汉大学 | 被引量 : 2次 | 上传用户:wolaiye2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体能够满足人们的信息和情感需求,而当发生灾害时,这种需求会变得更加迫切,并且从整体上来说,社交媒体提供的数据是动态、实时的、由用户自发产生的。作为社交媒体的代表,微博可以在实时信息和情感两个方面作为传统灾害信息提取方法的一个重要补充。灾害相关微博数据的处理是一种对时效性非常敏感的数据处理任务,其需求者往往期望能够尽快地获知被处理的数据和处理的结果。因此,考虑到微博数据具有流数据的性质,本文面向中文微博领域,围绕微博数据的获取、预处理、信息提取、提取结果统计、统计结果可视化的完整流程,设计并实现了基于微博流的灾害信息提取系统,该系统在微博数据获取引擎和微博分析引擎的支持下提供灾害相关微博流数据的信息提取功能。在灾害微博数据的获取和预处理方面,本文针对微博数据的特点,设计并实现了微博抓取策略和预处理方法。首先以爬虫的方式抓取灾害相关的新浪微博数据,提供了微博用户主页数据、微博搜索结果历史数据、微博搜索结果实时数据三种数据获取途径;然后对抓取到的灾害微博数据进行预处理,包括数据清洗、中文分词等,为信息提取准备好数据来源。在灾害微博信息提取方面,本文提出了灾害相关微博数据的文本分类和情感分析方法,为信息提取流程提供模型支持。本文采用基于FastText模型的文本分类方法和基于词典的情感分析方法,可以用于执行微博文本分类和情感分类任务。本文使用实现的原型系统的微博数据获取引擎获取了两组实验数据,基于实验数据进行了方法的评价。在上述方法实现的基础上,本文设计了基于微博流的灾害信息提取系统框架,并基于Spark分布式计算框架对微博数据获取引擎和分析引擎进行原型系统的实现,原型系统能够对灾害相关微博流数据进行文本分类和情感分类,并对分类结果进行时序统计,对统计结果进行可视化输出。本文使用实验数据对系统的可视化功能进行了展示。
其他文献
据历史记载1500年在宜良一带发生了一次强烈地震,由于前人对该次地震无较详细的现场实地考查资料,因此对这次地震认识说法不一。1992年作者对该次地震进行了实地考证。发现和确认了这次地震十分丰富的地震地表形变带,现存长度达81公里,最大左旋水平位错量9至11米。研究结果表明该次地震的发震构造为小新街-徐家渡断裂,震级接近8级。
在印度南部Palar河流域的下游,使用一种三维数学模型模拟区域地下水流。研究区域的特点是地下水(用于供给农业、工业和饮用的)超采。在整个区域内,在远离分布的若干井的河床上
随着国家对信息化的重视程度不断加大,社会对人才的需求也随之不断变化。有研究表明,近二十年,我国IT行业迅速发展,每5年左右就会出现新的行业热点,技术迭代更新快,对专业人
当前.在我们的教学实践中.往往会出现一些学困生,他们的思想品德、纪律、学习成绩等都比多数同学落后一些。由于他们的存在.我们就不能不面对他们进行分析、思考.谋求解决的途径。
数据日益成为人们的重要资产之一,大数据时代已经来临。然而,大数据面临的安全威胁日益严重。文章分析了大数据基础平台所面临的安全风险,并为大数据基础平台安全防护提出了相关要求。
目的:系统评价分析中药缓解5-氟尿嘧啶(5-FU)类化疗药物所致贫血的疗效,筛选可以有效预防化疗所致贫血的中药处方或制剂。方法:检索中国知网、维普数据库、万方数据库、中国
也许是由于版画品种和版画技法多的原因.因此汉英词典对版画的英文译法也多种多样。许多词典把版画译成 print、carving、engraving,printing 等等。那么版画的英语应该用哪
针对传统烟雾检测方法中提取的图像特征鲁棒性较差的问题,提出了基于稠密卷积神经网络(DenseNet)的烟雾识别方法。首先,利用卷积操作和特征图融合构建稠密网络块,在卷积层之间设计稠密连接机制,以增强稠密网络块结构内的信息流通和特征重利用;然后,将已构建的稠密网络块叠加成稠密卷积神经网络用于烟雾识别,节省计算资源的同时提升对烟雾图像特征的表达能力;最后,针对烟雾图像数据量较小的问题,采取数据增强技术