多核的并行相似连接

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:wanchh520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似连接(similarity join)是指在给定的数据集中,根据给定的相似度度量函数来衡量数据之间的相似度,并找出所有相似度不小于给定阈值的数据对的操作。随着网络和移动应用等信息技术的不断发展,数据呈现爆炸式增长,海量数据的分析需要强大的计算能力,相似连接成为大数据处理领域的热点方式之一。传统的单核计算机平台的处理能力已经很难满足海量数据处理的计算要求。为了提高计算效率和性能,利用基于多核平台的多线程并行编程发挥多核体系结构的优势,已经成为实现个人低成本并行计算和多核技术发展的趋势。因此,为了提高相似
其他文献
针对DV-Hop算法在估计平均每跳距离时存在较大误差以及DV-Hop算法在采用最小二乘法时对测距误差有比较敏感的反应,提出一种基于模拟退火的加权定位算法。改进的算法通过引入
K—means应用于MapReduce框架的大数据处理可显著提高K—means对大数据集的处理能力。但K—means聚类算法需要进行多次迭代才能达到可接受的效果,并将每次这代作为一个独立map
目前,垦区农行普遍存在着信贷资产质量低、不良贷款多、风险度高的问题,严重影响了资金的有效运行和业务的发展,加之货款企业经营体制改革的因素,防止、转移、消化贷款风险已
传统PDF论文抽取方法主要是单独基于规则的方法或单独基于机器学习的方法,其中基于规则的抽取方法在处理格式固定的数据方面具有明显的优势,通过制定简单的抽取规则即可准确定
分布式系统由若干个独立的节点组成,一些节点由于接收到大量请求而过载,还有一些节点却负担较少的请求任务。通过负载均衡技术可以使节点间的负载分配更加合理,最大化利用服
随着社交网络以及电子商务的飞速发展,越来越多的用户习惯于在互联网上针对商品发表评论,造成各大电子商务网站上产品的短评语总量飞速上涨。面对海量内容相似、格式随意的评
基本分形图像压缩编码算法虽然是一种很有前途的限失真编码方法,但是它存在着编码时间较长、计算复杂度较高的缺点。为了解决分形图像压缩编码算法编码时间过长的问题,基于图像的父块特征,提出了一种改进算法。该算法利用图像父块的几何特征预先把父块库分成Ds、De、Dm三大类,通过在各个类中运用相应的特征将搜索范围限制在与子块特征值相近的邻域内,即将类内全局搜索最佳匹配块转化为类内局部搜索最佳匹配块,有效地减少
危险源是影响飞行安全的重要因素,如何正确地识别危险源并采取对应措施确保飞行安全是民航空管必不可少的关键环节.这要求危险源识别算法在保证识别准确度的前提下还需具备在
据统计,工业国家中,信息与通信技术的能量消耗占所有产业能耗的10%左右。为了解决通信中网络设备的能耗问题,节能技术应运而生。虚拟网络映射是网络虚拟化的关键技术之一,越
带数据约束的实时系统是指一种既带有时间约束又带有数据变量约束的计算系统,其广泛存在于航空航天、工业控制、国防等安全攸关系统,并发挥着至关重要的作用。针对这类系统的