Spark环境下不完整数据集成填充方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:aa284636706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前已有的不完整数据填充方法大多局限于单一类型的缺失变量,对大规模数据的填充效果相对弱势.为了解决真实大数据中混合类型变量的缺失问题,本文提出了一个新的模型——SXGBI(Spark-based eXtreme Gradient Boosting Imputation),其适应于连续型和分类型两种缺失变量并存的不完整数据填充,同时具备快速处理大数据的泛化能力.该方法通过对集成学习方法XGBoost的改进,将多种补全算法结合在一起,构建了一个集成学习器,并结合Spark分布式计算框架进行了并行化设计,能较好地运行于Spark分布式集群上.实验表明,随着缺失率的增长,SXGBI在RMSE、PFC和F1几项评价指标上都取得了比实验中其它填充方法更好的填充结果.此外,它还可以有效地运用在大规模的数据集上.
其他文献
无人机自组网应用场景中,针对OLSR(Optimized Link State Routing)协议在数据通信阶段,无人机快速移动可能引起通信链路中断,并且OLSR协议没有链路维护机制,导致发包成功率降
异常数据检测一直是无线传感器网络安全的重要防护手段.针对现有方案计算复杂度高和检测精度低等问题,提出一种离散二进制粒子群优化孤立森林算法(BPSO-iForest).依据选择性
社区发现是复杂网络分析领域的一项重要研究内容,而标签传播算法因在分析复杂网络时具有时间复杂度低等优点,获得广泛关注.但标签传播算法中的随机策略降低社区划分结果的稳