SCEA:一种适应高维海量数据的并行聚类集成算法

来源 :电子学报 | 被引量 : 0次 | 上传用户:klyh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了
其他文献
通过适当调整产品设计和采取恰当的工艺手段,充分地发挥现有设备能力,完成了大型高压绕线式转子电机的生产,电机的效率和力矩性能均优于用户的要求。
2021年5月30日,随着上海发电机厂总装平台上一台50 Mvar级GVPI空冷调相机最后一项试验结束,结合该产品40余项试验数据,表明其主要性能参数、性能指标均满足,甚至优于设计值及
期刊
对传统的电机接线盒的特点进行分析,再根据车用工况的使用特点,提出了紧凑式结构的车用电机接线盒产品设计方案。通过试验和装车运行验证了产品设计的合理性和可行性。
根据电机生产实践,对物料配送过程中实施三项改进措施:使用标件的定容、定量配送工装,盘状物料的储运一体化工装和桶装液体储运一体化工装。这3项工装的应用不但方便了现场人员的作业,还提高了物料配送质量和效率。物料质量状态的完好有效保证了电机产品的质量。
针对用频设备复杂电磁环境适应性试验评估的技术需求,从场路线性耦合、电路非线性响应机理出发,引入三阶互调阻塞干扰因子,建立了三阶互调阻塞效应模型.理论推导与实验测定相结合,给出了模型参数的确定方法、三阶互调阻塞效应建模评估流程,以通信电台作为受试设备进行了实验验证.结果表明:利用在特定工作频率下测试确定的用频设备三阶互调阻塞干扰因子,假定其不随辐射干扰频偏变化,依据用频设备单频电磁辐射阻塞临界干扰场强变化曲线和环境电磁场频谱分布参数,能够准确评估用频设备的三阶互调阻塞效应,误差小于1dB.
冲击噪声环境下的测向算法大多基于分数低阶统计量,其不仅计算复杂度较高,而且对强冲击噪声的适应性也较差.通过对冲击噪声的分布特性进行研究和分析,利用其冲击成分出现概率相对较低且具有随机性的特点,提出了基于中值滤波的测向新方法,并推导了冲击噪声背景测向的克拉美罗界.首先,引入中值滤波方法对阵列接收数据进行平滑处理,滤除冲击噪声,并提出了针对强冲击噪声的改进方法,然后利用传统的二阶矩方法求阵列接收数据协方差矩阵并进行波达方向(Direction Of Arrival,DOA)估计.理论分析和仿真验证结果表明:所
为优化三相逆变器的性能,提出了一种高效率三相谐振极逆变器.在各相桥臂上增设的辅助谐振电路参与逆变器的换流过程时,桥臂上的各主开关并联的谐振电容的电压能周期性形成零状态,使主开关能完成零电压软切换,而且辅助谐振电路中的各开关器件也能完成零电流软开通和零电压软关断.开关器件实现软切换能降低开关损耗,从而使逆变器实现高效率运行.文中分析了电路的工作流程.3kW样机上的实验结果表明主开关和辅助开关都处于软切换.因此,该拓扑结构对于研发高性能三相逆变器具有借鉴价值.
井下地电阻率观测方法能有效减小和抑制地表干扰因素影响,提高观测精度.近年来,该方法在国内得到了快速发展.但也存在一些需要解决的问题,其中观测装置稳定性就是很重要的一个问题,影响装置稳定性最重要的因素就是外线路绝缘性能.外线路埋设在上百米深的地下,其绝缘性能在长期的观测中可能出现变化,对观测结果造成影响.本文通过理论分析计算,定量给出了井下地电阻率观测中线路绝缘性能对观测结果影响,并据此提出了外线路
目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结构,研究不同的卷积和池化操作对分类结果的影响.为提高新闻文本分类的精确率,本文提出并实现了一种组合-卷积神经网络模型,设计了有效的模型正则化和优化方法.实验结果表明,组合-卷积神经网络模型对
研究多天线窃听者场景基于混合精度模数转换器(Analog-to-Digital Converter,ADC)大规模多输入多输出(Multiple Input Multiple Output,MIMO)中继系统,中继将接收到的信号放大转发,通过在基站采用最大比合并接收信号,推导出合法用户与窃听者的频谱效率表达式,最终得出系统保密频谱效率表达式.根据能量效率定义建立功耗模型,推导保密能量效率表达式,并分析保密频谱效率和保密能量效率之间的平衡关系,进而揭示基站天线数、ADC量化位数等参数对物理层安全性能的影响.