基于Hadoop二阶段并行模糊c-Means聚类算法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:lideqiang163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Mapreduce机制下算法通信时间占用比过高,实际应用价值受限的情况,提出基于Hadoop二阶段并行C-Means聚类算法用来解决超大数据的分类问题。首先,改进Mapreduce机制下的MPI通信管理方法,采用成员管理协议方式实现成员管理与Mapreduce降低操作的同步化;其次,实行典型个体组降低操作代替全局个体降低操作,并定义二阶段缓冲算法;最后,通过第一阶段的缓冲进一步降低第二阶段Mapreduce操作的数据量,尽可能降低大数据带来的对算法负面影响。在此基础上,利用人造大数据测试集和KDDCU
其他文献
针对数据仓库使用雪花模式组织维表而带来的太多连接开销,以查询的时间开销和维表的存储开销作为衡量标准建立代价估算模型,设计基于遗传算法的维表模式优化算法。目的是实现维表模式自动调整,使系统在维表模式方面的维表存储开销和查询时间开销和最小。试验结果表明以较小的空间代价可以较大幅度地提高查询速度。
主题划分是多主题文档自动摘要中的一个重要问题,提出了一种以网页结构为指导,利用页面对应DOM树中节点的自然分割功能以及相邻边界节点语义相似度的比较进行网页主题划分的方法。实验结果表明该方法具有较高的划分准确率,在此基础上抽取的网页摘要可显著增加文摘内容对原文的覆盖率、有效解决Web文档摘要分布不平衡问题。
<正> 80年代以来,中国化妆品市场出 现了平均每年近30%的高速增长。特 别是90年代初,随着国际上一些著名 化妆品公司纷纷进入中国市场,化妆 品行业的竞争更加激烈,彻底改变了
<正> 据了解,欧美快递企业的特点是最大限度地谋求控股和独资;而新近出台的中国相关政策,给跨国快递巨头谋求控股和独资提供了政策保证。FedEx有关人士表示,作为一个全球快递
随着中国经济的快速发展和税务复杂程度的加剧,无论是政府、企业还是咨询服务机构对税务人才的需求都呈现出强劲增长态势。为此各类学校都开设了税务课程以便培训专职税务人员
<正> 2002年跨国公司进一步活跃在中国市场,外企人力资源也在这个新兴市场演绎着新的变动,随之而来的外企人员的薪酬行情也在发生新的变化。 通用职位薪酬 根据国际惯例,企业
唐代各种竞技、比赛活动花样繁多.异彩纷呈,有些项目历史悠久,集搏击、竞赛、观赏、娱乐、训练于一起,参与者身怀绝技,斗智斗勇锻炼体力.观看者人数众多,消遣娱乐调剂精神,积淀着丰富
针对传统设计在防火墙高速度与高灵活性需求上的难以兼顾,给出一个基于Intel IXP2400网络处理器的系统设计方案,借助网络处理器硬件上的微引擎多线程并行处理能力以及软件上对层次型、模块化编程框架的支持,使防火墙系统结合了性能与功能两方面的优势。
针对多相CV(Chan-Vese)模型中计算复杂度高、对初始轮廓选取位置敏感、分割不精确等问题,在区域梯度算法的基础上,引入自适应权重项对拟合中心进行加权计算。给出一种改进的自适应CV模型。实验表明,与多相CV模型相比较,新的自适应CV模型具有对初始轮廓选取位置具有更好的鲁棒性。
<正> 2001年是新世纪的第一年,也是中国和上海实施&#39;十五&#39;计划的起步年。上海将在&#39;九五&#39;期间取得较大成就的基础上,努力改善投资环境,迎接新一轮的对外开