多核的并行相似连接

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：wanchh520

【摘要】

：

相似连接（similarity join）是指在给定的数据集中，根据给定的相似度度量函数来衡量数据之间的相似度，并找出所有相似度不小于给定阈值的数据对的操作。随着网络和移动应用等信息

【作者】

：

冯林静

【机构】

：

天津工业大学

【出处】

：

计算机技术与发展

【发表日期】

：

2017年7期

【关键词】

：

多核多线程并行相似连接 multi-core multi-thread parallel similar join

【基金项目】

：

国家自然科学基金资助项目（61402329）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

相似连接（similarity join）是指在给定的数据集中，根据给定的相似度度量函数来衡量数据之间的相似度，并找出所有相似度不小于给定阈值的数据对的操作。随着网络和移动应用等信息技术的不断发展，数据呈现爆炸式增长，海量数据的分析需要强大的计算能力，相似连接成为大数据处理领域的热点方式之一。传统的单核计算机平台的处理能力已经很难满足海量数据处理的计算要求。为了提高计算效率和性能，利用基于多核平台的多线程并行编程发挥多核体系结构的优势，已经成为实现个人低成本并行计算和多核技术发展的趋势。因此，为了提高相似

其他文献

基于模拟退火的加权DV＿Hop的WSN定位算法

针对DV-Hop算法在估计平均每跳距离时存在较大误差以及DV-Hop算法在采用最小二乘法时对测距误差有比较敏感的反应,提出一种基于模拟退火的加权定位算法。改进的算法通过引入

期刊

无线传感网络DV-HOP算法加权模拟退火算法未知节点信标节点wireless sensor networkDV-Hop algorithmwei

基于MapReduce的单遍K-means聚类算法

K—means应用于MapReduce框架的大数据处理可显著提高K—means对大数据集的处理能力。但K—means聚类算法需要进行多次迭代才能达到可接受的效果，并将每次这代作为一个独立map

期刊

MAPREDUCE框架数据聚类K-means++Mahout单遍技术MapReduce framework data clustering K

试论垦区农行如何加强信贷管理减少贷款风险

目前,垦区农行普遍存在着信贷资产质量低、不良贷款多、风险度高的问题,严重影响了资金的有效运行和业务的发展,加之货款企业经营体制改革的因素,防止、转移、消化贷款风险已

期刊

信贷管理贷款风险管理不良贷款信贷员信贷队伍信贷资产质量农场防范贷款风险风险贷款信贷人员

一种规则与SVM结合的论文抽取方法

传统PDF论文抽取方法主要是单独基于规则的方法或单独基于机器学习的方法，其中基于规则的抽取方法在处理格式固定的数据方面具有明显的优势，通过制定简单的抽取规则即可准确定

期刊

PDF论文规则支持向量机样本特征混合方法信息抽取PDF papers rules support vector machine sample

一种多层网络下动态负载均衡算法

分布式系统由若干个独立的节点组成,一些节点由于接收到大量请求而过载,还有一些节点却负担较少的请求任务。通过负载均衡技术可以使节点间的负载分配更加合理,最大化利用服

期刊

集群负载均衡分布式系统异构网络节点虚拟化cluster load balancing distributed systems heterogeneo

基于卷积神经网络的短评语情感分类

随着社交网络以及电子商务的飞速发展,越来越多的用户习惯于在互联网上针对商品发表评论,造成各大电子商务网站上产品的短评语总量飞速上涨。面对海量内容相似、格式随意的评

期刊

情感分类短评语词嵌入多通道卷积神经网络emotion classificationshort commentsword embeddingmul

基于分类父块库特征的快速分形编码算法

基本分形图像压缩编码算法虽然是一种很有前途的限失真编码方法,但是它存在着编码时间较长、计算复杂度较高的缺点。为了解决分形图像压缩编码算法编码时间过长的问题,基于图像的父块特征,提出了一种改进算法。该算法利用图像父块的几何特征预先把父块库分成Ds、De、Dm三大类,通过在各个类中运用相应的特征将搜索范围限制在与子块特征值相近的邻域内,即将类内全局搜索最佳匹配块转化为类内局部搜索最佳匹配块,有效地减少

期刊

分形分形图像编码分类父块库特征算法fractalfractal image coding classified parent block libr

基于改进在线序列学习机的危险源识别算法

危险源是影响飞行安全的重要因素,如何正确地识别危险源并采取对应措施确保飞行安全是民航空管必不可少的关键环节.这要求危险源识别算法在保证识别准确度的前提下还需具备在

期刊

危险源识别在线学习极限学习机差分进化hazards identificationonline learningextreme learning ma

基于可分割流的虚拟网络映射节能算法

据统计,工业国家中,信息与通信技术的能量消耗占所有产业能耗的10%左右。为了解决通信中网络设备的能耗问题,节能技术应运而生。虚拟网络映射是网络虚拟化的关键技术之一,越

期刊

虚拟网络映射可分割流能量感知节能virtual network embedding flow splitting energy aware ene

基于带数据约束实时系统的互模拟检测方法

带数据约束的实时系统是指一种既带有时间约束又带有数据变量约束的计算系统,其广泛存在于航空航天、工业控制、国防等安全攸关系统,并发挥着至关重要的作用。针对这类系统的

期刊

实时系统接口自动机Z语言时间自动机互模拟检测real-time system interface automata Znotation time

多核的并行相似连接

与本文相关的学术论文