基于Hadoop的大规模电网数据相似重复记录并行检测策略

来源 :科技通报 | 被引量 : 0次 | 上传用户:guqiurong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。
其他文献
从理、法、方、药与中医药的现代化研究两个方面进行综合论述,为肺癌咯血的深入认识及中医药的更有效防治提供参考。
类矩形盾构隧道的等效抗弯刚度是分析其纵向受力变形的重要参数。基于等效连续化模型的基本原理,建立类矩形盾构隧道纵向等效连续化模型,推导得到类矩形盾构隧道的等效抗弯刚
(根据中国证监会官方网站整理)Q:什么是基金互认?A:基金互认是指允许境外注册并受当地监管机构监管的基金向本地居民公开销售。中国证监会、香港证监会通过基金互认,将允许符
文章从建筑工程施工现场安全监理的技术措施分析入手,论述了建筑工程施工关键工序安全防护的监理对策。期望通过本文的研究能够对建筑工程施工安全事故发生几率的降低有所帮
  海滨新区作为国家战略,其交通发展应站在较高的层面,支撑国家战略的实施,体现最新的交通理念,实现最新的交通技术,为满足这一要求,必须持续开展交通系统的研究,随时把握国内外的
开展集体备课,有助于提高教学效果,促进同课程教师成长,提升教学团队的凝聚力。是一种非常值得开展的教学管理方法。文章首先介绍了集体备课的方法并阐述了集体备课的意义,最
<正>新城建设展示中心工程用地位于青浦新城夏阳湖与崧泽广场西侧,隔华青路与崧泽广场相邻。北起公园路,东起华青路,南临新建居住小区,西临上海工商信息学校。占地约20,947平
预应力技术也在道路桥梁的建设中得到了越来越广泛的应用,在理论计算、检测试验、设备材料以及整个施工工艺流程和技术措施等方面形成了一套完整而可靠的体系,相信其应用前景
由于无线通信网络存在的带宽需求和移动网络带宽不足的矛盾,用户地域分布和对应用需求不平衡的矛盾以及不同技术优势和不足共存的矛盾,因此,决定了发展无线通信网络需要综合
桥头搭板作为过渡性措施,以缓解桥头突变性跳车以及将桥头差异沉降分散在一定距离范围内,有较好改善效果,本文通过对高速公路桥头搭板静载和动载试验进行研究,对桥头搭板的结