大规模数据集聚类算法的研究进展

来源 :深圳大学学报(理工版) | 被引量 : 0次 | 上传用户:zhangshuai5365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是机器学习领域的一个重要研究方向,在过去几十年间,针对不同类型中小规模数据集聚类算法的研究取得了很大的进展,许多行之有效的算法先后问世.然而,这些算法在处理大规模数据集时,计算复杂度较高,处理高维数据的能力较弱,难以获得令人满意的效果.随着大数据时代的到来,数据的采集和存储变得相对容易和便捷,但数据量也与日俱增,因此,针对各种实际应用的聚类问题应运而生,使得专门针对大规模数据集的聚类算法研究成为当前机器学习领域的重要任务之一.本文以大规模数据集的可计算性为切入点,对目前串行和并行计算环境下专门用于处理大规模数据集的聚类算法进行综述和分析,重点评述了串行计算环境下基于样例选择、增量学习、特征子集和特征转换的聚类算法以及并行计算环境下基于MapReduce、Spark和Storm框架的聚类算法,给出了有关未来大规模数据集聚类算法设计思路与应用前景的思考和讨论,包括基于数据并行和训练过程自动化的聚类算法设计策略及关于社交网络大数据聚类算法的若干理解.
其他文献
我国互联网技术不断发展,自媒体得到迅速普及,这便使得传统纸媒新闻产业遭受重创,但是各类信息交织化影响弊端严重,涉及各类文化作品指导地位逐渐降低,总体来说,此类碎片化阅
本文分析了实用主义价值观形成的历史背景和条件,指出了实用主义价值观对社会主义精神文明建设的危害,认为解决目前精神文明建设“一手软”,精神文明“滑坡”的问题,必须批判实用
严格责任,作为一种民事归责原则,在各国法律体系中得到了普遍肯定和确认。但当它以刑事归责方式出现时,却承载着无尽的批判和质疑。笔者以为严格责任在刑事领域有其存在的合
目的慢性阻塞性肺疾病急性加重(AECOPD)呼吸衰竭是导致严重危害公众健康的重大疾病,致死率高,经济负担重。中医药干预AECOPD呼吸衰竭具有一定的疗效和优势,但缺乏系统研究,机
作为中国独生子女的第一代,“80后”一直都是学者关注的对象。而现在,随着“80后”开始大规模的走出校园步入社会,他们开始逐渐成为现代家庭的主力军,人们的目光也开始转向他
台湾导演林书宇在其执导的三部电影《九降风》《星空》和《百日告别》中,都以"失去—寻找—告别"的情节线索探讨个人成长的主题,并将死亡母题融入其中,倡导"向死而生"的死亡
结合当今国际河流共享淡水资源竞争利用和冲突日趋激烈的状况,通过分析国际河流法中水资源开发利用的条款及发展趋势与我国水法体系原则,认为在我国水法中存在:管理体制不严
采取课堂观察法对辽宁省129名初中化学教师的教学视频进行观察,运用Rasch模型及软件处理数据。结果表明:仅有三分之一的理科教师采用探究教学方式,且总体探究教学实施能力的
国家重点研发计划是科技体制改革后形成的5类科技计划之一,其立项数量一定程度上反映了科研单位实力与水平。文章分析了2016~2017年中国农业科学院重点研发计划立项情况,并与
为了解广西田东县猪群O型口蹄疫免疫抗体水平,采用液相阻断ELISA方法,对2014年1—12月采集经O型口蹄疫疫苗免疫28 d后的猪群血清进行抗体效价检测,对比不同规模不同猪群免疫