【摘 要】
:
日常生活中存在着很多二分网络结构,譬如用户-域名网络,云服务中相互承载的源IP-域名网络等等。二分网络中存在着社团结构,基于社团结构的网络分析比基于节点的网络分析更为高效。同时,社团结构的发现可以检测出匿名网络中潜在的威胁,这对二分网络的管理以及分析意义重大。但是随着大数据时代的降临,企业每天产生的日志量呈爆炸式的增长,传统的社团发现方法并不能适用于长时间尺度内海量的日志数据,这使得对长时间尺度内
论文部分内容阅读
日常生活中存在着很多二分网络结构,譬如用户-域名网络,云服务中相互承载的源IP-域名网络等等。二分网络中存在着社团结构,基于社团结构的网络分析比基于节点的网络分析更为高效。同时,社团结构的发现可以检测出匿名网络中潜在的威胁,这对二分网络的管理以及分析意义重大。但是随着大数据时代的降临,企业每天产生的日志量呈爆炸式的增长,传统的社团发现方法并不能适用于长时间尺度内海量的日志数据,这使得对长时间尺度内二分网络内的社团发现变得愈发的困难。所以本文以大数据背景下的二分网络为研究对象,设计并实现了长时间尺度内二分网络社团发现系统,该系统通过对实时高速海量的用户上网日志进行接收以及处理,实现了高速海量日志下的聚合关系查询技术,然后基于聚合数据进行加权二分网络中的社团发现。具体工作主要包括如下:首先,系统搭建了基于ELK框架中的Logstash集群,用于接收、预处理高速海量的实时用户上网日志,本系统只针对日志中最普遍的三个字段,以源IP、目的域名、时间戳将数据流进行标识。系统采用Kafka作为分布式消息队列,MongoDB作为底层数据库,采用SparkStreaming作为分布式计算引擎消费Kafka中的数据,完成了数据在内存中、入库前、出库前的多次聚合,实现了高速实时日志输入下的数据通信关系的聚合。然后系统针对于离线的用户聚合日志进行二分网络社团发现、系统采用HDFS作为底层数据存储、MapReduce作为分布式计算框架,完成了对聚合数据的单模投影、并行社团发现以及域名节点社团标定,实现了长时间尺度内二分网络中稳定社团结构的发现。最后为了实现聚合关系的快速查询,系统采用了 ELK框架中的ElasticSearch对MongoDB中的数据建立索引,实现了元素聚合关系的快速查询以及社团发现结果的可视化展示。测试结果表明,系统可以对数据进行大规模聚合,使查询实际条数大幅度减少,极大的增快了数据聚合关系查询速度,实现了聚合关系数据的秒级查询。系统可以减少并发插入数据库的数据条数,增加数据传输的可靠性并提升服务质量,基于离线数据的社团发现也可以有效的挖掘出二分网络中的社团结构。
其他文献
Patent Troll是指那些从来不实施专利,而是通过购买专利从而寻求目标企业以获取专利许可费,并以专利侵权诉讼为最后手段以获取赔偿金的企业或个人。Patent Troll的运营成本低
区域是地理学研究的中心问题之一,从区域煤矿角度考虑一个地区的煤矿安全态势,有助于信息集合并最大化利用。本论文以各煤矿安全监察分局所辖范围内的煤矿为研究对象,分析区域煤矿安全态势及预警指标体系,构建多源信息融合安全态势分析及预警模型,并提出事故预警技术和管理体系。首先,收集国内外煤矿事故统计数据,分析出煤矿事故存在区域性差异,从区域视角对安全态势进行研究具有重要意义。研究分析区域煤矿灾害机理,并用鱼
随着国民经济发展,越来越需要建设深井以开发深部的固体矿产资源,而竖井掘进机法是深井建设的重要发展方向。采用竖井掘进机法进行深井建设时,洗井排渣技术是最大的难点。空气洗井具有节约水资源、降低工程造价、钻进效率较高等明显优势,而且随着我国西部干旱缺水地区固体资源开采及凿井工程的增多,采用空气洗井的竖井掘进机法,将显示出突出的优势。在此背景下,本论文综合采用数值分析、模型试验方法,开展了竖井掘进机空气洗
伴随我国社会经济的发展,建筑的空调系统(供热和供冷)占到社会总能耗的25%~30%,传统能源存在环境污染等弊端,清洁能源的开发迫在眉睫。在各种新能源和可再生能源中,地球地表下包含存储的地热能源能有效应用于空调系统。本文基于地热开发的能源桩技术提出了一种新型的深层埋管式能源桩技术,该技术不仅充分利用桩内埋管式能源桩的优点,并且可利用更深层地热来提高单根能源桩换热量。新型能源桩的结构形式灵活,能够根据
21世纪初,中国的城市化进程呈逐年递增趋势,截止2019年,中国的城市化率已达五成以上,这意味着中国的城市化迈入了一个新的历史阶段。2015年牡丹江市对A社区进行了初步网格化,
太赫兹波位于微波段和光波段之间,当前没有大规模的应用,本文主要以太赫兹波的应用为背景,通过理论计算和实验测量两种方式对目标太赫兹散射特性进行研究,揭示太赫兹频段目标散射特性的影响因素。针对常见算例利用不同的计算方法,由于太赫兹频段的特殊性,主要从电磁方法和光学方法两个方面对其散射特性进行研究,为太赫兹频段目标电磁散射提供仿真和测试两方面的数据支持,具有一定的理论和应用价值。本文创新性的给出太赫兹频
现代移动通信以第一代移动通信技术的发明为标志,在经历爆发式增长后,对人们的生活方式产生巨大的影响。如今,移动通信渗透到生活的方方面面,成为推动社会发展的重要因素之一。5G作为新一代移动通信技术,将广泛应用于增强移动带宽(enhanced Mobile BroadBand,eMBB)、高可靠低时延通信(Ultra-reliable and Low Latency Communication,URLL
无线通信技术的快速发展,促使了各类新型应用的产生,运营商提供的服务类型也在飞速的扩展,如短视频、在线直播等等,此时服务类型由传统的“以连接为中心”的服务转变为了“以内容为中心”的服务。这些服务需求不仅有高数据传输效率、低传输时延的要求,同时也需要大量的计算能力和持续的数据处理能力。要想最大化利用有限的无线频谱资源,优秀的资源分配算法是提高整个网络性能的关键,而传统的资源分配算法很难同时满足这些需求
随着城市居民的生活品质和电气化程度的逐渐提高,作为与电网用户联系最为紧密的配电网的建设与发展,在新时代背景下面临着诸多的问题与挑战。配电网重构不仅作为提高系统电能质量、供电可靠性与灵活性的重要手段,也在减小网络损耗、提高运行经济性等方面发挥着关键作用。由于分布式电源(Distributed generation,DG)具有良好的环境效益和经济效益,DG已被广泛地应用于配电网中,但是随之而来的功率倒
随着人工智能的高速发展,自然语言处理等计算机技术获得了极大关注,具有很强的研究潜力。文本生成在自然语言处理领域有着重要意义,高质量的文本对于对话系统、智能翻译、文学写作、知识图谱等与自然语言处理相关的任务具有重要影响作用。文本数据由于自身的离散性和语义结构自身的复杂性,容易出现文本训练数据样本数量少、质量差、样本缺失等难题。现有的文本生成技术的研究已经有了较大的进展,但是仍存在着一定的局限性。例如