基于分布式爬虫的社交媒体灾害信息挖掘系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:a200638012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来我国社交媒体发展迅猛,社交媒体如新浪微博等每天都会产生大量的数据,如何提高社交媒体数据采集效率,并从中挖掘出灾害相关信息,尤其是时间和空间信息,对于灾害的信息管理和救灾防灾决策支持具有重要意义。基于分布式爬虫的社交媒体灾害信息挖掘系统,通过多节点分布式模式高效采集数据,并提取出其中的时间特征分布和空间特征分布信息,为灾害治理提供数据支撑。灾害信息挖掘系统,使用B/S模式,采用了数据采集、数据存储、数据挖掘和数据展示的四层架构设计。数据采集层以Scrapy-Redis框架为基础,以阿里云服务器上部署的4个Cent OS服务器为爬虫子节点,以新浪微博平台为数据源,以反爬虫技术为辅助手段进行数据抓取。数据存储层包括两个步骤,对原始微博数据进行清洗,将数据存入My SQL数据库。数据挖掘层是对微博数据进行灾害信息挖掘,主要是对时间特征信息和空间特征信息的提取,时间特征信息利用数据库查询技术进行提取,微博文本地名识别采用地名库匹配以及地名前后缀算法同时进行,并借助高德地图开发接口进行逆编码转换成经纬度坐标。数据展示层是将采集的微博信息和分析处理后的数据信息,以图表等形式进行可视化,Django框架搭建的网页是进行数据展示的基础,微博文本信息、微博用户信息和处理分析后的时间特征信息是采用ECharts库以图表形式展示,空间特征信息则采用高德地图展示位置分布。通过四层架构设计完成对社交媒体数据的高效抓取和灾害信息挖掘以及可视化。灾害信息挖掘系统使用发生时间不同并且影响范围也不相同的利奇马台风、白鹿台风灾害作为案例,抓取新浪微博相关数据,挖掘时空特征后,分别进行时间分布分析和空间分布分析。实验结果表明,每次灾害的数据采集时间均能保持在30分钟以内,并且时空分布均能反映台风灾害的演变情况。灾害信息挖掘系统能高效抓取社交媒体数据,并从中挖掘出灾害信息,可应用于包括台风在内的多种灾害场景,为灾害信息管理提供了新的思路。
其他文献
【研究背景】脓毒症(Sepsis)引起的急性肺损伤(ALI)是脓毒症常见并发症之一[1],脓毒症发生时肺组织易受攻击,可因此导致急性呼吸窘迫综合征(ARDS),其主要的病理基础为广泛的肺泡上皮细胞和肺血管内皮损伤导致的富蛋白性肺水肿[2]。已有研究发现,抑制肺血管内皮细胞焦亡能够减轻脓毒症造成的肺组织损伤[3]。补体系统是免疫系统的重要组成部分[4],补体C3a是C3的裂解片段之一,C3a与受体C
基于模块化多电平变换器的高压直流输电技术(Modular Multilevel Converter Based High Voltage Direct Current,MMC-HVDC)成为我国更大容量、更远距离、更加高效电能传输的重要手段之一,MMC换流阀的故障穿越能力则直接关系到输电系统的可靠运行以及柔性直流输电的发展前景。综合考虑换流阀的建设成本、运行效率以及故障穿越能力,由一半半桥子模块(
洪水灾害历来受到国内外广泛关注,我国长江流域洪灾类型多变、分布较广,全流域特别是长江中下游地区面临着严峻的防洪形势,上游水库群的相继建成应用有效提高了流域防洪安全保障能力。洪水波在长河道中演进历时较长,且易受河道区间入流影响,而水库调蓄作用会改变洪水传播过程,多变的来水情形下水库群调度应用方式直接影响着上下游防洪安全。因此,探索河道洪水演进规律及库区回水情况,合理制定水库群联合调度方案,对流域防洪
气候变化是人类社会实现可持续发展面临的重大挑战之一。在基于传统产业的“碳减排”方案遭遇瓶颈时,基于自然的解决方案或将成为应对气候变化的有利补充。“蓝碳”指水生态环境系统所固定的碳,其内涵正在从海洋不断向内陆水域延伸。湿地生态系统如湖泊、水库、池塘等,仅占全球面积的5%至8%,但对区域碳循环的影响却不容忽视。当前,有关内陆水域尤其是湖泊“蓝碳”研究却较为滞后。“水圈微生物驱动地球元素循环的机制”重大
第一部分利用脂质插入修饰细胞外囊泡实现结肠癌的SPECT/NIRF成像背景:近年来,肿瘤细胞来源的细胞外囊泡(tumor cells derived-extracellular vesicles,TEV)作为药物递送的纳米载体已成为研究热点,有广阔的临床应用前景。以TEV为纳米载体构建多模态影像分子探针既可以实现肿瘤诊断,又能在活体内无创性示踪TEV,从而加速TEV的临床转化。目前基于TEV的多模
长江是中华民族的母亲河,它不仅孕育了灿烂的中国文化,同时也给人们的用水、灌溉、航运带来了巨大便利。新中国成立之后,长江流域的水力资源得到进一步开发,建成了以三峡为核心的巨型水库群,进一步提升了长江流域的防洪、灌溉、发电等能力。然而,如此丰富的水力资源在带来经济效益的同时,在汛期也极有可能造成严重的洪涝灾害。如何在汛期利用长江上游水库群的库容优势,在保障流域整体防洪安全的同时尽可能的利用水能优势提高
乡村旅游作为乡村产业振兴的重要选择已成为乡村发展的关键,而乡村旅游的发展联系着乡村产业、农民收入、乡土文化等多个方面的发展,其中产业运营是乡村产业发展的核心内容,是实用型村庄规划编制的重要突破口。文章以面向运营的实用型村庄规划编制为研究内容,以甘肃省永靖县小茨村为研究实例,探究乡村旅游型村庄规划的编制路径,以期为乡村旅游实用型村庄规划编制提供参考。
金纳米颗粒具有局域表面等离子体共振、催化活性等特殊性质,被广泛应用在光电子学、生物医学等领域。本文利用金纳米颗粒制备了金纳米薄膜和Au/AAO复合材料,采用多种常规表征手段研究它们的结构和光学特性,主要内容和结果如下:(1)采用单宁酸还原法制备了不同粒径的金纳米颗粒,通过TEM和UV对其形貌结构和光吸收特性进行研究。结果表明随着粒径变大,金纳米颗粒从单分散状态变为纳米线和纳米环结构,具有分形的特点
氧化物弥散强化(ODS)铜合金以其优异的高温力学性能和抗辐照性能成为了热核聚变实验反应堆偏滤器热沉材料的主要候选。合金中均匀分布着纳米氧化物颗粒,颗粒的类型、大小、体积分数以及合金的制备加工技术对合金性能有重要影响。机械合金化法是制备该合金的主要手段,传统机械合金化法以Cu粉和Y2O3粉为原料,通过高能球磨使Y和O固溶到Cu粉中,但由于Y2O3极为稳定,球磨耗时长、效率低。为此,本课题提出使用稳定
触觉是通过人体皮肤与外界的物理接触以理解现实世界对象的一种感知方式,类比于人体的感知功能,触觉感知对于机器人获取外部环境信息至关重要。本文搭建了机器学习和深度学习模型,基于自建实验平台采集的振动数据,实现了物体材质识别,实验结果表明,模型具有优异的成功率和鲁棒性。本文主要工作内容如下:(1)搭建实验平台,采集实验数据。实验平台由Lin Mot直线电机、升降台、Bio Tac SP多模态触觉传感器和