data.table和dplyr软件包在数据操作方面效率的评价

来源 :中国卫生统计 | 被引量 : 0次 | 上传用户:ytrewq123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的通过数据验证,比较目前应用广泛、高效的R语言中,data.table软件包和dplyr软件包在数据操作方面的运算效率,为R用户在数据处理效率方面选择合适的软件包提供建议。方法模拟产生不同样本量大小的数据,从选择行列、排序、分组计算、添加更新和合并五个方面比较data.table、dplyr和基本R函数的运算速度。结果data.table在选择行(DT[x==.])、更新、排序、内连接方面运算速度优势明显,在选择行(DT[x<.])、分组计算、左连接、添加方面和dplyr相比没有明显差异,在选择列
其他文献
陈独秀是五四新文化运动的主将,他在中华民族生死存亡的关头率先喊出了民主与科学,吹响了启蒙的号角,不仅以伦理的觉悟启蒙了一批又一批的青年,而且以阶级的觉悟促进了广大人
用于众多通信系统的、传统的解调方式已不适应现在高速发展的数据通信要求,文章提出了一种基于STEL 2105芯片的全数字解调器方案,讨论了该解调器的设计和实现,还对调度过程和
当今城市正面临着一系列由于大工业化功能失衡所带来的诸如环境污染、生态破坏和资源枯竭等生态问题与住房紧张、交通混乱、城市拥堵、市民心理问题等“城市病”,为了寻求更
医学图像分割在应用的时候对精度有着苛刻的要求,传统算法对于像素级别的图像分割任务来说效果不佳,针对视网膜眼底图像中渗出液的特征复杂程度高,提出了三种改进的U-Net模型来避免分割效率低、分割精度不足的问题。首先改进经典的U-Net模型,训练了一个基础模型作对比,同时为了防止过拟合、梯度弥散等问题,将残差网络与密集网络的卷积结构作为特征提取器引入U-Net模型中,新的ResU-Net和DenseU-
结合贵阳地区的气候条件,贵州贵阳国家农业科技园区于2005年引进康乃馨栽培获得成功,经过3年的推广种植,现种植规模已达21.6hm^2,总结出了一套适宜贵阳地区康乃馨的栽培及管理技术
1943年M cCulloch和Pitts首先提出了神经元模型(MP模型)~([1])。1958年到1962年,Rosenblatt在神经元模型的基础上添加了学习功能,提出了单层感知器网络模型~([2-3]),并将此模型应用到实践中,但是此模型解决不了线性不可分问题。到1986年,Rumelhart
环巢湖地区,在合肥的发展中占据了战略性的地位,它作为城市发展中重要的一环,正在着力打造其特色以凸显城市的整体风貌,环巢湖地区的建设和发展是以生态巢湖和人文巢湖为核心
受限因变量(truncated dependent variables)是指在某个范围内数据是连续分布的,而超出此范围之后数据观测不到而用其上限或下限来表示,使得观测值并不完全反映因变量的实际
新年伊始,国内尿素市场依然弱稳运行,局部地区呈现出震荡下滑趋势。进入冬季以来,华北、华东、华中地区环保预警不断,工业面需求不稳定,春耕尿素备肥时间还比较充裕,1月份气
在大宝山矿区及周边四个区域(Ⅰ区、Ⅱ区、Ⅲ区和Ⅳ区)共采集土壤表层样品52件。针对不同采样点和不同区段的整体研究,文章在单因子指数的基础上对研究区重金属复合污染分别采