曙光:15年100万倍的飞跃

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:rockegg2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “5月14日,国务院总理温家宝一行来到曙光天津产业基地视察,他走过曙光1号、曙光1000等系列高性能计算机,来到了‘星云’的旁边,详细听取我们的汇报。”历军回忆道,“在这一过程中,我第一次计算出了一个数值,从曙光1000的25亿次/秒到现在的‘星云’的近3000万亿次/秒,15年间,曙光将高性能计算能力提高了100万倍。”
  “星云”正是那个在全球TOP500排行榜中位列第二的超级计算机,它成为世界第三台实现双精度浮点计算超千万次的超级计算机。
  15年前,曙光公司在北京成立,随着曙光1000、4000A、5000A,以及“星云”系列产品的推出,高性能计算能力不仅实现了十亿、百万亿、千万亿次每秒的突破,还走出了科学计算领域,开始向商业应用迈进。
  
  “星云”的价值创新
  
  刘保华:6月1日,曙光公司隆重发布了世界排名第二的超千万亿次的高性能计算机 “星云”。我们不难发现,现在的超级计算机采用的都是CPU GPU的架构,那么“星云”是什么架构?
  历军:“星云”超级计算机采用的就是CPU GPU架构,它是未来将要推出的曙光6000A千万亿次高性能计算机系统的阶段性成果,是曙光6000A两大分区之中的服务分区,而另一大分区就是由龙芯组成的计算分区。“星云”采用x86处理器,该分区由9280颗通用CPU和4640颗专用GPU组成,运算峰值达到3000万亿次/秒,实现Linpack值1271万亿次/秒,且单位耗能所提供的性能达到了4.98亿次/瓦。
  超级计算机为什么采用CPU GPU架构呢?最主要的原因是CPU发展多年,所有的软件都是基于CPU的架构,而GPU的应用范围相当有限,作为未来大型计算系统的重要的部件之一,它无法替代传统CPU的作用。“星云”采用了4640颗GPU,是因为GPU适合一些特殊应用,比如科学计算中的颗粒碰撞。
  刘保华:“星云”的计算能力排名全球第二,我想排名只是它价值体现的一部分,那么总体来看它的价值创新在哪里?
  历军:第一,“星云”是一个完全自主设计的商业化产品,在天津测试完毕之后直接打包送到深圳超级计算中心现场安装使用,而有的超级计算机得到全球排名后就拆掉了。
  第二,“星云”采用的是均衡系统设计的思维。集群就是众多小的节点组成一个大集群,“星云”就是要把节点做大,降低集群的规模。比如过去一万个节点,每一个节点性能较低,这样组成一个集群,而曙光可能用100个节点,也做出相同整体性能的集群,这就是“星云”。“星云”中的“星”就是每一个性能较高的节点。“星云”将面向未来的云计算环境,这样它将面对无数用户和各种各样的应用,因此“星云”采用了均衡设计。在面向高性能科学计算应用的时候,“星云”的GPU能力将得到充分发挥,在面向网络服务的时候,“星云”可以很好地适合各种商业应用。因此,“星云”可以面对信息服务、科学计算两方面应用,不管是“大应用”还是针对个人的“小应用”,它都采用均衡设计,“星云”名字就来源于此。曙光希望“星云”未来可以成为国内大型云计算环境中的主要装备。
  因此,“星云”在产业中的一个重要价值就是,它面向未来的云计算环境,已经不再只是强调科学计算能力。尽管超级计算机排名中我们实测了Linpack性能高达每秒1271万亿次,但我们也会做商业应用的TPCC测试,这仍将是一个极高的数字。
  刘保华:曙光的标志性技术产品,曙光1000到5000A,再到“星云”,“星云”是否有一些普及化的衍生产品?
  历军:是的。大概在6月,我们就会发布基于“星云”架构的新的PHPC200桌边级高性能计算机,7月底会发布曙光新的刀片架构。这些产品更加平民化,应用面更广泛。我想到时可能会向业界展示样机,具有百万亿次运算能力的机器只需要兩排机柜,成本大大降低,安装与环境也基本无关。比如对于学校来讲,只要一个教室大小的房间和足够电力就可以很快上线这种系统。
  
  高性能迈向高效能
  
  刘保华:仔细分析美国和中国超级计算机的应用就会发现区别较大。比如美国橡树岭国家实验室的负责人就表示,他们的超级计算机执行的任务数量越少越好,任务负载越重越好,而中国的超算中心运营情况却是执行众多任务。这种区别出现的根源是什么?什么时候中国高性能计算应用环境才能真正构建起来?
  历军:美国的高性能计算应用至少有30年历史,他们的高性能计算机可能只跑两个应用,一跑就是两三年。而中国将高性能计算作为一个产业仅仅15年时间,起步较晚。15年前,中国的高性能计算只停留在科研院所的研究之中。在1995年曙光公司成立之后,中国才真正开始将高性能计算作为一个产业来发展。从1995年25亿次/秒的曙光1000,到2010年的超千万亿次/秒的“星云”高性能计算机,15年之中我国高性能计算机的计算能力提高了100万倍。
  第二,由于我国高性能计算起步较晚,所以应用软件的开发力度不足。应用软件开发时间短造成了目前应用颗粒小的问题。曙光多年来也培养了一大批应用软件开发的人才,水平也在不断进步,他们开发的“小应用”起到了普及用户的作用。
  第三,我国从“863”计划开始建立了科研重大专项资金和资源,重点研发高性能计算机及“大应用”。 我想再用几年时间,中国就会有大批的“大应用”出现,这是未来的趋势。
  刘保华:前不久,中国首套分布式GPU超级计算系统在中国科学院启用,聚合计算能力近6000万亿次。那么分布式系统是否代表了未来高性能计算的发展方向呢?
  历军:李国杰院士说过一句话,计算机的发展正所谓“天下大事,分久必合,合久必分”,现在就到了又一次合的时候了。第一,分布式计算在应用上有很大局限性,它不强调时域计算,也就是说它不适合实时性应用的需求。第二,所有分布式计算的计算能力都可以通过系统的数量叠加达到很高的数字,但是效率不高。即使是在对实时性没有要求的特殊计算环境中,效率仍旧不高。因此从普遍意义上看,现在已经到了合的时候,而不是进一步分的时候。
  刘保华:那么,高性能计算未来竞争的核心焦点是什么?
  历军:所谓高性能计算不能等同于科学计算。回顾曙光15年历程,我们在推出曙光3000A的时候曾经不再把它称为超级计算机,那时候叫超级服务器。因此,未来高性能计算的竞争核心已经不在于峰值而在于效能。
  在“863”计划中,我们不把星云叫高性能计算机,而是叫高效能计算环境。此外,它将面向更复杂的应用,这是一个挑战。我认为在这个计算体系结构发生变革的时期,它应当面向的是数据和计算能力进一步集中的云计算环境,因此应用应当是多方面的。我们不可能做一个机器,仅仅用于科学计算,再做一个机器仅仅用于商业服务,它一定是均衡设计的。我认为,未来超级计算机的存在形式将发生变化,也许那时不应该再称为超级计算机,而是称为计算能力。因此曙光未来提供的也许不再是计算机,而是计算能力,这就涉及到了服务范畴,这是业务模式面向未来的根本改变。
  
  向服务转型
  
  刘保华:曙光目前正在向服务转型。从成都云计算中心开始,曙光在高性能计算领域的角色就发生了变化,从建设者转变成为运营者,这其中既有曙光擅长的也有不擅长的,那么这种新的身份给曙光带来了哪些机遇和挑战?
  历军:坦率地说,一个企业不太可能什么都擅长,但是一定要符合所在产业的未来发展。曙光这样的高性能计算厂商从产品向服务转变是符合产业未来发展趋势的。做运营可能需要几种类型的特长:第一擅长圈地,第二擅长设计楼房,第三擅长做出商业模式,提供管理和服务。从曙光的角度看,我们这几年一直在不断地丰富运营方面的能力,比方说我们两年前就专门成立了基础设施部,已经开始涉及机房里的其他基础装备,比方空调、电力和一系列基础设施,而曙光不会试图去涉及建设楼房和圈地。
  刘保华:机房系统建设的技术含量很高,而且中国的机房产业远没有成熟,还处于多企业多方竞争的状态,现在曙光进入很容易形成竞争优势。
  历军:我们现在的机房技术可以做到无风扇计算机,靠液体浸泡式散热,并且已经把水冷技术引进机柜内部,用水进行热交换,成都云计算中心中的制冷系统就已经采用我们自己的产品了。这样做的目的不仅是因为可以大幅度降低成本,更重要的是它有力支持了曙光的一系列技术战略——我们希望曙光未来对于云计算中心的管理软件体系可以管理到这个中心的所有设备,甚至包括门禁摄像头,因此我们要有自己的基础设施和全面的系统化设计能力,否则采用不同企业的机房设备集成是无法实现全面管理的,这正是系统厂商的优势。可以透露的是,8月我们就可能成批展示曙光的系列机房基础设施产品。
  刘保华:我们知道现在很多云计算中心都是要么都做科学计算,要么都做商业服务,而成都云计算中心却将两者整合在一起,这会出现什么难题,曙光如何解决?
  历军:其实曙光在成都超算中心的运营相当于试水,目的不是为了直接获得商业利益,而是推演新的商业模式。“星云”的很多设计理念也来自于成都云计算中心在运营过程中出现的不同挑战,硬件设计只是其一,而云计算中心的核心在于软件。因此我可以提前透露一個消息,就是不久之后,我们下大力气重点发展软件应用。其实,曙光在软件方面已经做了很多工作,只不过软件以前只是配角,未来,软件从幕后走向前台,渐渐成为主角。当然现阶段曙光的软件不涉及应用,只是支撑应用,以后,我们也会试图开发特定行业特定环境下的应用软件。我们从一个计算机系统制造商向服务转型,这是一个相当漫长的过程,但是我们已经从现在开始战略布局。
  刘保华:软件将成为曙光未来发展的重点。那么你认为曙光在哪些领域还需要不断加强,保证自己在市场上的竞争力呢?
  历军:未来我们会侧重三大领域:第一就是通过我们自主研发的软件和系统,推进国产系统的研制,以及这些软件和系统面向特殊行业的应用;第二,在工业标准的通用产品方面要达到较低的成本,提高通用产品的工艺以及各个层面的质量;第三,提高公司整体运营管理水平和供应链管理水平。总的来说,就是在工业标准通用产品上瞄准国际领先厂商,用两三年的时间,让我们从产品本身到运营效率都能够能达到国际先进水平。
  刘保华:在美国,政府一般来说是高性能计算的最大用户,美国通过国家支持的方式来保证超级计算的发展。但是云计算很多应用属于商业范畴,曙光此次与成都云计算中心的合作仍然是和政府合作,未来曙光是否会进入纯商业领域?
  历军:我认为和政府合作不一定就不是商业,因为曙光从来都把政府当成客户看待。我们在云计算方面有一个规划,这个规划将解决几个核心问题。第一个就是云计算的安全问题,安全要自主可控,这也许就是未来像曙光这样的企业在中国市场上能够承担的责任与义务,也是我们的商业价值。
  第二个,国家应该支持超算中心。现在国内有一种声音质疑高性能计算还要不要做下去,我认为不仅要做下去,而且还应该以政府为主导,同时投入更多的资源。如果政府把超算中心作为新兴战略性产业来扶持,那么在这个技术大变革的时期,超算技术就有机会出现飞跃式发展。
  刘保华:2006年,曙光天津产业基地一期落成。今年,曙光在天津产业基地的二期工程落成投产,曙光在中关村软件园的新办公地点奠基,形成了天津 北京的布局。未来,北京基地和天津基地将在曙光内部各自起到哪些作用?这和曙光的战略布局有什么关系?
  历军:北京主要还是公司的总部,承担运营和技术研发工作,比如软件和未来核心技术开发。天津是曙光的生产制造基地和工程技术开发的部分,这里已经具备了主机板的SMP生产线,也就是说再往下一步,自主板卡都会自己来生产,而在过去我们是请深圳代工的。现在,曙光所有产品的生产制造和发货都在天津,同时它还具有一个重要的作用,就是提高曙光的研发实时性,快速建设研发体系,大大压缩开发的时间周期。
其他文献
中国生物技术创新服务联盟(ABO联盟)成立于2005年9月,是中国第一家致力于推动生物医药创新活动的产业联盟。  ABO联盟以提升新药研发的效率和水平、壮大北京研发服务业、提升产业结构为根本目标,秉承“同一世界,统一标准”的服务理念,通过资源整合、品牌共享、联合营销等方式,为客户提供一站式的系统解决方案。    探索产业发展新思路    历经多年的发展和积淀,2008年,北京生物医药产业的产值已近
电子产品制造业  软件应用于五个层次    目前,电子产品制造业工业软件应用涉及到:作业工具、设计工具、性能仿真、数字工艺、生产仿真、异地协同、知识共享、物料编码、元器件库、安全保密、项目管理、流程管理、成本管理、计划管理、物料跟踪、质量控制、后勤保障、财务管理、采购管理、销售管理、系统集成等方方面面。它们大都集中在产品设计、工艺设计和生产管理部门。主要应用手段有:文档电子化、数据电子化、流程电子
2009年12月,浙商银行宣布成功部署基于流程优化及SOA架构的新一代柜面业务处理系统,开创了银行柜面业务系统的全新流程优化模式和SOA流程银行建设的先河。当时记者在采访中了解到,诸多流程的梳理和优化是他们在整个项目实施过程中最费时、费力的问题之一。  但是,如果借助今天的工具,浙商银行当初的流程梳理问题将会容易解决得多。  浙商银行在业务流程梳理和优化上的问题并不是个特例。越来越多的企业已经意识
三网融合、产业融合已经成为当前信息产业发展的主旋律。我们该如何应对新技术应用带来的安全威胁的演变?  2010年4月21日,第十一届中国信息安全大会在北京新世纪日航饭店隆重召开。本次会议由中国电子信息产业发展研究院主办,中国计算机报承办,并得到了工业和信息化部信息安全协调司、中国计算机学会计算机安全专业委员会和国家计算机病毒应急处理中心的大力支持和指导。本次大会继续保持了历年大会的综合性、前沿性、
目前数据中心面临的显著问题就是耗电量较大,同时数据中心产生的电子垃圾不能及时地回收再利用,服务器的使用效率没有达到最佳。因此,“绿色环保的数据中心”将成为数据中心的发展方向。安普布线数据中心系列产品针对数据中心要求,是高密度、高灵活性,以及节能环保的布线产品。  针对企业级数据中心区别于普通商业建筑的一些特殊或更严格的需求,泰科电子安普布线将电路板连接技术用在结构化布线的应用中,设计和开发了一系列
某市边检指挥中心的主要业务职责包括:对出入境人员及其行李物品、交通运输工具(汽车、火车、船舶、飞机)及其运载货物实施边防检查,对出入境交通运输工具进行监护,对口岸限定区域进行警戒以及法律法规和主管机关赋予的其他任务。随着信息化建设不断推进,各项业务工作已经越来越依赖信息系统,信息系统的运行状况直接影响着出入境服务水平,影响着政府机关的社会形象。  该边检指挥中心网络基础设施建设是1995年起步的。
4月23日上午,沈阳东软软件园,东软与哈曼宣布达成战略合作伙伴关系,并公布了一系列合作细节,但并未明确表明真实的合作意图。 直到记者阅读了东软同日在上交所发布的公告后,才豁然开朗。原来,东软通过一次漂亮的收购,已顺利跻身汽车软件第一阵营。    物有所值的收购    上交所发布的公告显示,东软集团以及全资子公司——东软欧洲与哈曼国际及其全资子公司的全资子公司Innovative Systems G
“一些公司的竞争简直称得上是疯狂,他们每笔网上买卖不惜亏损5至10美元,如果亚马逊想要生存下去的话,就必须陪着他们疯下去。庆幸的是互联网泡沫正好这时破灭了,这避免了亚马逊陷入更深的困境。”亚马逊公司创始人贝索斯在谈到2000年的互联网泡沫时这样说。  他提到的公司应该包括Webvan.com。这家电子商务网站在两年多时间总计亏损超过12亿美元。据估算,包括市场费用与折旧,Webvan平均每单亏损1
美国新闻集团计划终结旗下所有的新闻网站免费模式。此外,新闻集团还计划对谷歌、雅虎提起诉讼,阻止这两家巨头链接并引用新闻集团的内容。  新闻集团是生产新闻的,搜索引擎是帮助读者搜索到想要的新闻的。这两者的纠葛,究其原因,还是它们提供的产品尽管存在互补,但是提供的市场价值却是同质的,即它们都是互联网广告的传播渠道。  解决这两者商业利益和盈利模式冲突的方法自然是盈利模式重构。在理论上有两种重构盈利模式
云计算虽然还没有完全落地,我们尚未进入真正的云时代,但这并不妨碍企业的IT架构提前发生变化。目前,趋势科技、思科、Arbor、赛门铁克、RSA等IT厂商对于云计算已经有了各自的安全方法论。  今年1月中旬,惠普和微软宣布达成在未来3年投资2.5亿美元云计算合作协议。时隔不久,NetApp和思科、VMware宣布组建VCN联盟关系。而就在两个月之前,EMC、思科和VMware宣布成立VCE联盟的时候