基于MapReduce的增量式数据集的相似性连接

来源 :计算机应用研究 | 被引量 : 10次 | 上传用户:yangxue0121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。
其他文献
我国边疆民族地区高校意识形态教育近年来面临着许多复杂的新形势, 手机媒体是创新边疆民族地区高校意识形态教育的一个重要突破口.手机媒体的应用, 可以增强意识形态教育的
新建本科院校自20世纪末期出现到目前渐趋稳定,不管是理论研究还是实践探索均取得了不少的成果,为我国的高等教育分类管理政策的制定提供了一定的思考依据。为了了解二十年来我
基于对应用型高校创新人才培养的需求,建立机械设计课程群,通过实际产品的创新设计优化机械设计课程群的课程体系,建立各课程之间的关联矩阵;针对机械设计课程群的理论教学和
新工科教育理念强调交叉融合、创新开放、多元培养、协同育人。高职高专院校应主动适应新经济发展常态,立足新经济的"新",创新人才培养理念,创新教学方式与技术,深化产学合作
为解决虚拟化系统启动过程的安全性问题,将可信度量与可信链传递的思想引入虚拟机监控器的可信启动过程中,提出了协作型VMM系统的可信启动流程。采用SHA-1算法,结合启动过程复杂性和度量数据多样性,在启动过程的多个关键点上对内核、程序代码和配置文件等进行度量,并在发现异常时终止启动,能够避免系统敏感信息泄露,提升系统的安全性。测试结果表明,所设计的可信启动流程能够确保系统引导和内核自启动过程的安全可信
实际的通信网络是由多种网络组成的,网络代价最小化问题需要研究各个网络应当承载的业务量,然而目前网络负载均衡算法对业务分配优化问题仅考虑单网络场景。针对多网络场景,提出了四种不同网络间相互合作的业务分配问题的多维业务分配算法。该算法在考虑网络间的业务分配问题时,从网络容量、业务类型、网络覆盖范围、用户习惯和终端等几个因素综合考虑,在这些因素的约束下,通过求解网络代价最小化方程,得到了最优业务分配方案
针对当前列车节能优化控制研究中对匀速状态考虑不足的情况,对包括匀速状态的列车运行状态组合及其能耗算法进行了研究。通过对列车运行过程作动力学分析,在深入研究列车能耗计算的基础上,基于MATLAB数值计算优势,设计了列车能耗计算的仿真程序。以确保列车运行准时为原则,提出考虑匀速状态的列车控制策略,以区间限速以及列车工况转换为约束进行建模,并采用改进的遗传退火算法(MGASA)对模型求解。从优化结果可知
网络隐蔽信道是一种特殊的网络通信机制,它以正常信道为载体,能够无视系统安全策略的设置,在不同的安全实体之间传输敏感数据。由于网络隐蔽信道检测难度大,它通常被恶意攻击者视为一种理想的数据窃取手段。但是,网络隐蔽信道很容易受到网络状况变化的影响,使得信道的解码出现错误,甚至使信道无法正常工作。提出一种对网络状况变化具有较强自适应能力的、基于时间划分的网络时间式隐蔽信道,它将隐蔽信息调制在单个网络包的时
针对同时送取货车辆路径问题的研究算法进行了评述。将该问题的求解方法分为精确算法、构造型启发式、现代启发式以及并行算法四个大类。从算法的原理、性能、适用环境,以及算
针对具有模糊持续时间的产品开发项目工期—成本均衡调度问题,进一步考虑了模糊环境下决策者风险偏好(可接受风险水平与乐观指数)对工期—成本均衡的影响,并运用NSGA-Ⅱ算法,结合项目实例,对该问题进行了求解和分析。研究表明,通过调整决策者的可接受风险水平或乐观指数,可以获得一系列不同的Pareto解,以便决策者从中选择其偏好的调度方案。