数据科学家技术和业务要兼通

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:jianjfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  企业需要的是可以立足现状,既具前瞻性又具实干能力的数据科学家,而不是言必称云、言必称大数据的概念炒作者。大数据是个笼统的概念,而熟知其涉及到的各类专业技能,如文本分析、语音识别等的人才,恐怕才是企业真正所需。
  数据科学家主要从事数据分析工作,从海量数据中挖掘有价值的信息。如果一个项目只是侧重数据的获取与存储,那么可能需要的是熟悉平台架构的数据库工程师或架构师;如果项目侧重数据分析,那么数据科学家就是必需的。
  技术与业务相结合
  文思海辉金融事业群商业智能事业部解决方案高级经理马宁认为,数据科学家对数据的分析可划分为两大类:探索型和预测型。探索型旨在寻求复杂数据的内部结构,典型应用如著名的沃尔玛超市“啤酒与尿布”的案例。预测型旨在利用历史数据预测未来,典型应用如银行定量判断一个信用卡客户潜在的违约可能性。
  马宁将一个数据科学家需要具备的基本的素质和能力归纳为以下四点:第一,数据科学家应具有数据加工处理的能力,熟悉关系型数据库的SQL语言;第二,数据科学家应具有统计建模的能力,熟悉SAS、SPSS、R这样的统计软件;数据科学家至少应该熟悉某一领域的业务知识,如银行、证券、电商、医疗等;第四,数据科学家应具备将统计模型的结果用业务熟知的语言来表述,或利用可视化技术将复杂结果做清晰展现的能力。
  马宁本科学的是数学专业,硕博连读期间从事的是医疗数据分析,工作后则主要从事金融行业的数据分析。“在公司中,我的工作是为金融领域的客户提供数据分析与挖掘解决方案,主要涵盖客户智能与风险管理两大领域:前者旨在帮助金融机构更好地了解其客户,提供基于客户生命周期的有针对性的服务策略,后者旨在帮助金融机构防范信用、流动性和市场风险,提供反洗钱、反欺诈的侦测。”马宁介绍说。
  在不同类型的企业中,数据科学家的具体工作内容也会有差异。比如,文思海辉作为全球领先的服务提供商,承接了不同行业的开发项目,其数据科学家团队必须熟悉多个领域的业务。“我们面对的主要是金融业的客户,因此我们的数据科学家团队必须熟知银行、证券、保险领域的业务需求,但在一般的商业企业中,其数据科学家只需要熟悉该企业自身的业务即可。”马宁表示。
  大数据的概念近两年非常火,但软硬件厂商以及服务提供商目前在这个领域还处于摸索阶段,在国内甚至国际上真正能落地的大数据项目并不多。需要说明的是,大数据并不是产生数据科学家的必要前提,尽管两者存在着千丝万缕的联系。数据科学家在传统的结构化数据领域一样可以大展拳脚,国内外的无数案例证明了这一点。不过,马宁指出,相对于传统数据,大数据对数据科学家提出了更高的要求,例如将非结构化数据转换为结构化数据的能力,以及利用Hadoop这样的分布式架构实现快速海量数据分析的能力等。
  任何一个新兴领域的概念基本都会经历提出、发展、泡沫、泡沫破灭、价值回归、成熟的周期。马宁认为,数据科学家正处在发展阶段,并不是噱头,但已经显露出一些泡沫的端倪。未来泡沫的破灭并不意味着数据科学家的消亡,反而是它走向成熟的必由之路。
  一个人难以精通数据业务的方方面面。因此,马宁更建议企业成立一个数据科学团队,团队内的每个人都专注于自身擅长的领域。文思海辉正在这条路上探索前进。中国的数据科学家阶层已经初步形成,并伴随着大数据等新技术的发展不断成长壮大。马宁认为,数据科学家更侧重数据分析与挖掘,其来源主要是数据分析师(在某些语境下二者就是同一概念),而不太可能是数据库工程师。某些企业将来会为数据科学团队设立单独的CDO(Chief Data Officer)职位。
其他文献
本报讯 此前,教育部出台了“三通两平台”的数字化学习中心方案。其中,“三通”包括宽带网络校校通、教育资源班班通以及网络学习资源人人通,但如何去实施才能更适应现代教育模式依然是待解课题。近日,英特尔分享其移动技术在中国教育领域应用的最新进展。  英特尔(中国)有限公司企业合作与解决方案部教育行业中国大区经理贾晓明表示,英特尔基于移动技术的一对一学习系统,能有效地支撑“人人通”项目。目前,在一级城市,
2012年度中国  产品追溯物联网应用领域最具影响力企业奖  深圳市华美龙物联网技术有限公司是一家专业从事产品译码防伪网络系统软件、物流监控系统软件、客户关系管理系统软件、产品物流质量安全追溯物联网应用系统软件的企业。  深圳市华美龙物联网技术有限公司,成立于1999年4月,注册资本1100万元,是一家专业从事产品译码防伪网络系统软件、物流监控系统软件、客户关系管理系统软件、产品物流质量安全追溯物
本报讯 12月4日,工业和信息化部向中国移动通信集团公司、中国电信集团公司和中国联合网络通信集团有限公司颁发“LTE/第四代数字蜂窝移动通信业务(TD-LTE)”经营许可。这是我国首次发放4G牌照。  我国4G的建设发展不仅可以更好地满足移动用户高速无线上网的需求,而且将促进移动互联网业务应用持续深入,推动移动生产办公、移动电子商务、移动交通物流、智慧家庭等行业信息化服务不断扩展,并将催生更多的业
近日,ONF宣布设立OpenFlow一致性测试认证项目,旨在为广大网络设备厂商提供验证其SDN设备是否符合OpenFlow标准的机会,能够验证的产品包括SDN交换机、路由器和网络软件。  支持OpenFlow1.1的一致性测试认证  据悉,在OpenFlow一致性测试认证项目进行初期,会对市场中的SDN产品是否符合OpenFlow1.1版本进行检测,随后将添加OpenFlow1.3的一致性测试和验
北京云华软件有限公司依托“农民专业合作社经营管理系统”,建设“云华农汇网农业电子商务云服务平台”,借助云计算技术,为包括农民合作社在内的涉农企业提供农资农产品信息发布、进销存管理、质量追溯等SaaS应用,开拓产业链行业电子商务新应用模式。  北京云华软件有限公司(农汇网)是伴随着国家十二五转型战略规划诞生的高科技公司,在北京海淀区中关村国家高新技术产业园注册成立,现为北京软件行业协会会员单位。拥有
云计算已经从概念落到实处,用户对云计算所提出的要求也越来越具体。“云成功的关键在于要让用户真正觉得它是有价值的。”在重庆云博会上,AMD全球高级副总裁、大中华区总裁邓元鋆对记者说,“今天,用户已经不单是被云的概念所吸引,而是确实提出了一些对云的需求。”  认识到这一点,AMD开始将“价值云”作为在云计算领域开疆拓土的核心战略。“价值云就是说,云计算建设要从应用、终端用户、服务提供者的需求角度出发,
2010年1月,国务院印发《进一步鼓励软件产业和集成电路产业发展的若干政策》,为软件和信息服务业创造了更加优越的发展环境,也为推进新疆软件和信息服务业跨越式发展提供了历史机遇。  中央在《关于支持新疆经济社会发展若干政策和重大项目的意见》中明确提出,新疆应“大力开发多语种操作系统和软件,积极承接国内企业在中亚、西亚、南亚等国的多语种软件外包业务”。这无疑为新疆软件和信息服务业的发展指明了方向。  
商网云政务是商网历经13年的技术磨练和沉淀,整合几千家政府客户的需求,采用目前先进、成熟的开发框架技术和设计理念研发的电子政务解决方案,功能完善、丰富,可以安全、稳定的运行于多种服务器操作系统,应用前端兼容诸多浏览器和移动终端设备。无需支付任何第三方的授权使用费和版权费,建维总成本非常低。  商网云政务是商网历经13年的技术磨练和沉淀,整合几千家政府客户的需求,采用目前先进、成熟的开发框架技术和设
在IT领域,整合或者说融合已经形成了一股巨大的洪流,不可逆转。IT厂商会提供融合了计算、存储、网络甚至是软件的整体解决方案,而用户也希望与单一供应商打交道,以减少整体采购和使用成本。在数据中心领域也上演着相同的戏码,能够提供端到端解决方案似乎成了数据中心厂商最值得骄傲的资本。  但是从正逐渐分化的数据中心市场来看,一方面由电信运营商、数据中心服务商建造的超大型数据中心层出不穷,另一方面,企业的数据
Gartner的数据显示,2013年全球科技企业在数据中心建设方面的支出预计将达到1500亿美元左右。在数据中心建设上投入巨大的公司以谷歌最为突出。随着谷歌“云战略”的落地,该公司对于网络基础设施建设的投入一直有增无减。谷歌在今年4月~6月短短3个月的时间内,在数据中心建设方面的投入已超过16亿美元。