中国最大AI计算芯片问世 走近燧原科技邃思芯片、云燧加速卡

来源 :微型计算机 | 被引量 : 0次 | 上传用户:yuyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  提到AI计算芯片和加速卡,人们第一时间想到的往往是英伟达推出的A系列、T系列产品。实际上随着国内芯片设计的发展,目前国内也有多家厂商推出了和AI计算相关的加速芯片和加速卡,比如百度、阿里等。日前,燧原科技推出了他们旗下最新的AI计算芯片和加速卡,从规模来看,燧原科技这次推出的产品可谓中国目前最大,在性能方面也和国外同档次产品有一战之力。下面,我们就和你一起走近燧原科技,了解一下其推出的邃思芯片和云燧加速卡。
  燧原科技是位于上海的一家半导体初创企业,其英文名为“Enflame”。燧原科技的两位创始人分别是CEO赵立冬和COO张亚林。其中,赵立冬拥有清华大学电子工程学士和美国犹他州立大学电子计算机硕士学位,曾在S3、AMD、紫光、锐迪科等企业工作过,最高职位是紫光集团副总裁。张亚林则是复旦大学电子工程学士学位获得者,同样有AMD工作背景,并领导定制开发了Xbox One主芯片,管理和发展了AMD上海、北京研发部门等。从燧原科技两位创始人的背景可以看出,他们均有专业电子、集成电路的学习、工作背景,都曾经在全球领先的一线企业拥有多年工作经验和丰富的行业资源。
  燧原科技将自己定义为一家“专注人工智能领域云端算力平台,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品”的企业。目前,其推出的人工智能训练和推理产品品牌为云燧,芯片产品品牌为邃思,软件品牌为驭算。
  在了解了燧原科技的基本情况后,让我们一起来看看本次燧原科技发布的全新产品的相关信息。
  国内最大的AI云端训练芯片:速思2.0
  本次发布会最大的惊喜就是邃思2.0芯片。从基板尺寸来看它是目前国内最大的AI芯片。邃思2.0芯片的封装尺寸长宽均为57.5mm,整体封装面积达到了3306.25mm2,不過这个数据是否包含了基板长度暂时不得而知。相比之下,英伟达的A100计算芯片同样采用了HBM方案,其不包括HBM存储的A100计算芯片面积仅为862mm2,和邃思2.0的数据相比差异相当大,其主要原因可能是厂商统计数据的方法存在差异。
  和这种计算芯片通常采用7nm甚至更高端的5nm工艺有所不同的是,邃思2.0采用的是格芯(格罗方德)的12nm工艺。有关工艺制程的信息,在发布会上并没有做太多介绍,但是可能使用的就是格罗方德在2018年发布的12nm FD-SOI工艺。这个工艺的优势在于能够实现极高的集成度,并且FD-SOI技术的引入也使得整个芯片的功耗下降、性能提升。格芯的数据显示,FD-SOI技术引入之后,他们的12nm工艺能够以低于16nm FinFET的功耗实现基本等同于10nm FinFET的性能,或者说相比16nm FinFET工艺性能提升15%,功耗降低50%。
  虽然格芯12nm FD-SOI工艺的整体表现在同代工艺中算是佼佼者,但是考虑到半导体制造的代差碾压现象的存在,如果燧原科技能够采用台积电的7nm工艺或者更新的5nm工艺来制造产品的话,那么整个芯片的规模、性能、功耗等应该会再上一个台阶。那么,为什么燧原科技选择了比较老旧的工艺来制造这款产品呢?其主要原因可能还是综合考虑了成本、市场以及产品等因素。
  对燧原科技这样的初创公司来说,台积电的7nm、5nm工艺自然是好的,但是高昂的流片费用和相关制造成本在没有较大的市场来分摊的情况下,最终体现到产品上就是昂贵的单片售价。市场是敏感的,初创公司的新品在技术、性能上没有绝对优势的前提下,如果成本和价格再没有优势的话,那么相比成熟公司或者跨国企业的产品,初创公司的产品就很难得到市场和买家的关注。因此很多初创企业在早期都会提供相对于市场上成熟产品大致相当的性能,却低得多的价格,或者背靠某个大企业进行定向采购,毕竟对芯片这种产品来说,有人用才能实现有效迭代。宁可早期少赚、不赚甚至略亏,都一定要在自己的能力范围内维持整个市场的存在感和自己的产业生态圈,才能在—次次迭代中不断升级,形成自己在技术、产业和生态上的竞争优势。
  从这点来考虑,燧原科技在邃思2.0上采用12nmT艺是合理的,也是目前市场竞争条件下的最优解。
  邃思2.0采用2.5D圭寸装设计,整合79颗芯片。从芯片的外表面可以看出,邃思2.0拥有一个计算核心和4个HBM2E存储芯片,加起来一共有5个芯片。考虑到它封装79颗芯片,那么可能在下部还集成74颗HBM2E芯片,最终达成了64GB的规格。
  继续来看产品的相关参数。算力方面,邃思2.0的单精度FP32算力为40TFLOPs,单精度张量TF32算力为160TFLOPS,整数INT8算力为320TOPs。此外,燧原科技宣称邃思2.0支持目前所有的AI精度,包括FP32、TF32、FP16、BF16和INT8,不过由于发布会给出的消息不多,燧原科技没有给出部分数据精度格式下的算力情况,比如BF16(不过后文的性能测试有从侧面透露出一些信息)。另外对于一些特殊情况下的算力优化情况,发布会上也没有进行介绍。
  相比目前最快的英伟达A100,A100的FP32算力为19.5TFLOPS,TF32算力为156TFLOPS,BF16算力为321TFLOPS,INT8算力为624TOPS。虽然从绝对理论数值上来看,A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的问题在于,A100在目前AI计算比较常用的BF16和INT8格式上算力大幅领先邃思2.0。不仅如此,在计算目标是稀疏矩阵的情况下,A100 GPU的TF32、BF16和INT8算力会直接翻倍,这就不仅仅是硬件规模可以决定的内容了,
  邃思2.0芯片采用了HBM2E的存储方案,最高可以支持64GB容量的本地存储,带宽最高为1.8TB/s。外部接口则采用的是PCIe 4.0 x16,这也是目前主流的AI计算设备上常用的接口之一。   值得注意的是,邃思2.0在扩展性上拥有独特设计。其芯片内部设计了专用的通道,被称为GCU-LARE燧原智能互联总线,单路可以实现双向50GB/s的带宽。邃思2.0内部拥有6路设计,总计可以实现300GB/s的双向互联带宽。由于独特的互联端口,邃思2.0可以提供互联扩展算力的功能。这个功能非常重要,这意味着邃思2.0摆脱了传统芯片仅仅依靠PCIe总线沟通系统和互联的设计,而是可以依靠自己定义的总线自组织成网,这就为邃思2.0芯片的大规模、集群化应用打好了基础。
  除了上述内容外,燧原科技没有详细地对整个芯片的架构、设计等内容进行介绍。希望未来能公布更详细的资料,使得大家也可以一窥芯片的架构和设计。
  燧原科技的加速计算卡:云燧T20和云燧T21
  除了芯片产品邃思2.0外,燧原科技还在此次发布会上推出了加速计算卡新品,其产品型号为云燧T20和云燧T21。
  先来看看云燧T20,这款产品采用的是传统PCIe设备外观,需要占用双插槽。从外观来看和一般的显卡没有太大差别。不过云燧T20外壳没有设计散热器,应该是放置在机架中进行统一散热。云燧T20和云燧T21的TDP功耗分别为300W和400W。
  除了云燧T20外,燧原科技还推出了云燧T21,采用的是OAM模组设计。所谓OAM,是指OCP Accelerator Module,也就是OCP加速模块,这是百度、微软等企业联合推出的标准,用于标准化AI硬件加速模块的系统设计。OAM标准定义了一整套方案,包括AI加速硬件在主板、机箱、供电、散热等方面的规范,通过OAM规范,类似云燧T21这样的产品就可以在不同的AI加速设备中兼容使用。从外观上来看,云燧T21和我们传统印象中的PCIe设备差别很大,更像是自带了散热器和底座的CPU模块。
  目前云燧T20和T21全系列产品都支持单机多卡互联、多机多卡互联和超大规模集群互联。其中单机多卡互联适用于主流AI服务器,单机支持8张加速卡互联,适合中小型深度学习训练场景。多机多卡的规模进一步扩大至数百张卡,可以支持中大型企业、院校运行深度学习训练的场景。最大的则是超大规模集群互联,支持以干为单位的节点互联,适用于云计算、超算中心等场景。
  值得一提的是,由于邃思2.0加入了相关互联总线设计,因此组建多卡互联系统很方便。在发布会上还展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。这个集群中包含了8192张云燧训练卡和DTU芯片,能够以80%的线性度输出性能,最高可以实现1.3E级别的单精度计算能力。目前,全.球尚未有其他设备能够以1.3E(大约130000TFLOPS)的算力输出性能,云燧智算集群是首个能够达到这样高度的产品。
  在发布会上燧原科技还介绍了旗下驭算Topsrider 2.0架构的相关内容。目前驭算Topsrider 2.0主要支持更高算力,支持更便捷高效的开发和更灵活通用的场景。燧原科技展示了驭算Topsrider 2.0的架构图,最底层是云燧T10系列和云燧T20系列硬件,通过驱动层,进入上层SDK层之后,驭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架,最后再进入应用层。目前驭算Topsrider 2.0也提供了非常完善的编译器、工具链、图形化整合开发环境、自编译支持以及高性能运行支持,非常方便。
  比肩业内顶级的部分性能
  和国内目前很多AI芯片厂商的产品“只闻楼梯响,不见人下来”,性能总是模模糊糊相比,燧原科技在发布会上大大方方地展示了云燧T20系列的性能。虽然竞争对手只写了“友商旗舰”,但考虑到就算不是英伟达A100,而是上代旗舰产品,也说明了云燧T20产品已经颇具市场竞争力,要知道这还是一款12nm工艺制造的产品。
  从燧原科技展示的信息可以看到,云燧T20在TF32性能的图像识别和分类、NLP、目标检测、图像分割等方面,基本上和友商旗舰水平相当。其中比较弱势的是NLP和目标检测,最差情况下只有对比产品的60%和80%性能。较好的是图像分割、图像识别和分类,基本拥有超过友商旗舰的性能。在和友商次旗舰的对比中,云燧T20的性能领先幅度分别在1.5倍到4.5倍之间,整体性能不错。
  在和两款GPU对比的情况下,云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍,其余的BF16算力、内存带宽、内存容量和互联带宽基本上可以达到GPU1的1~2倍,但是不如GPU2。考虑到云燧T20只是燧原科技的第二款产品,这样的性能已经值得肯定了。
  燧原科技还使用云燧T20和上代云燧T10进行了对比。从数据来看,云燧T20的性能基本上是云燧T10的1.5~6.7倍,显示出不小的进步,尤其是TF32算力暴增6.7倍,这显示云燧T20在架构上针对TF32进行了充分优化。不过在BF16方面,云燧T20的整体性能提升幅度还不够。此外,在稀疏矩阵的性能优化上,云燧T20也没体现出明显优势,这是未来燧原科技需要努力加强的部分。
  燧原产品定律发布,性能稳步提升
  在发布会上,燧原科技还发布了未来的产品路线图。其计划在2023年发布新的云端训练产品T30和T31,每瓦特性能大约是2020年发布的初代T10和T11的14倍,大概也是最新发布的T20和T21的3.5倍左右。如此巨大的性能提升,新的产品在架构更新的同时,可能会采用全新工艺,使用更多的晶体管来实现更高的性能。
  目前,燧原科技拥有推理计算产品云燧i10,即将发布的云燧i20的每瓦特性能是云燧i10的4倍,2023年发布的云燧i30的每瓦特性能应该是云燧i10的16倍左右,值得期待。
  除了产品路线图,燧原科技还发布了“燧原产品定理”,那就是燧原科技的每一代产品相比前一代产品,在“平均业务”中,每瓦特性能要达到前代产品的至少3倍,每单位价格性能要达到前代产品的至少2倍,并且保持软件兼容性和可靠性等。
  总的来看,燧原科技通过此次发布会展示了自己强大的技术研发能力和产品规划、应用能力。作为一个初创公司,燧原科技的AI加速芯片产品已经具备一定水準。同时燧原科技对未来产品的规划以及“燧原产品定理”的出现,也给人们展示了这家公司坚定自主研发、提升产品性能的信心。希望在未来的道路上,燧原科技能够坚持现在的研发主线,将自主AI芯片做得越来越好,越来越强。星星之火,可以燎原。
其他文献
2020年10月29日,NVIDIA在Ampere架构显卡全球发布会上首先公布的三款新一代GeForceRTX 30系显卡的最后一位成员-GeForce RTX 3070(后文简称RTX 3070,RTX 3080、RTX 3090同)如期而至。相对于先推出的RTX 3080-卡难求、玩家持币待购的高冷和高高在上“俯视众生”的RTX 3090,首发价格499美金、国内上市酋发价格为3899元起的G
这场以亿万用户电脑桌面为战场,看似维护用户隐私的争斗,实际上,更是一场挟用户以遏制对方的利益之争。作为即时通讯工具的QQ,作为安全工具的360,都合理或不合理地拥有着扫描用户文件的能力和“权力”。它们都在宣称是为了保护用户电脑的安全,但维护还是伤害,也只有他们自己知道。    “感觉就像‘六大派围攻光明顶’。”  10月27日,网友“真朋友”正在全屏观看一部电影,突然在屏幕的右下角,跳出一个来自腾
千万不要被专辑的名字骗了,这是一张非常不文艺的碟。在夏天的早上听着这些曲调轻快的歌,感觉有一种自由的空气从窗外飘来。my little airport对政治和社会的关心,自然而然并且充满热情,这就使他们的表达有力量。     新专辑封底有“维港唱片”字样,这是my little airport和其他几支独立乐队共组的唱片公司。     封面的女孩子不是Nicole,她和阿P很少真人在封面出镜。阿P
全面屏家族设计  荣耀MagicBook14锐龙版2021款笔记本上手的第一感觉,是“熟悉”。在A面设计上,淡蓝色的荣耀Logo和钻切工艺蓝色镶边表明了它的身份,全金属机身设计带来了更坚固和温润的体验。转向B面,荣耀MagicBook14锐龙版2021款超大的屏占比屏幕便映入眼帘,它承袭了家族式全面屏设计,其上、左、右三边边框仅为4.8mm,屏占比高达85%。除了较高的屏占比,它在屏幕素质上也表现
在今年柏林国际电子消费品展览会上(IFA),荣耀发布的荣耀手表GS Pro一举斩获“户外穿戴设备金奖”这一殊荣,赢得了行业的认可。要知道,荣耀手表GS Pro(后简称GS Pro)是自荣耀2018年瞄准户外运动以来首次推出专业级产品,这也是荣耀首次推出以GS为后缀的智能手表产品。MC测评室在第一时间拿到了该产品,接下来就让我们一起来探寻GS Pro到底有哪些新功能,又将以何种专业表现来赢得行业的认
作为很多玩家心目中永远的NO.1 MMORPG游戏,《魔兽世界>的每一次大版本资料片更新都会给诸多老玩家带来热血沸腾的感觉。这是一种无法解释的永恒情结,哪怕是在AFK多年之后,每逢大资料片的更新,总是又义无反顾地重回艾泽拉斯体验一番,这次更新也不例外。那么怎样的硬件才能让我们畅玩《魔兽世界:暗影国度》呢?  全新征程,《魔兽世界:暗影国度》概览  在全新的暗影界中,暴雪又带来了等级压缩到60级、永
最近我陷入迷茫,作为一个崇尚天然,也不曾在容貌上作过任何努力的女子,似乎正在遭受“审美观念”冲击,而且变得有罪起来。比如看到旅美作家严歌苓每天下午三点前写作完,都要换上漂亮衣服,化好妆,静候丈夫归来。她说:“你要是爱丈夫,就不能吃得走形,不能肌肉松懈,不能脸容憔悴,这是爱的纪律。否则就是对他的不尊重,对爱的不尊重。”  开始时,我还和喜欢素面朝天自由呼吸的女友讨论,每天化妆是否太苛刻了?如果恪守“
从4月开始,新一轮房租加价潮从北京开始,并迅速在上海、广州、深圳乃至中国更多城市蔓延,“谁是大推手”成为时下最热门的讨论。    “人为刀俎,我为鱼肉。”  长居北京的张瑞这样向《南都周刊》记者描述他对房租涨价的无奈。去年6月,这个营销经理在牡丹园地铁旁与别人合租了一套两居室,一年后要续约了,房东却把他的租金每月从1300元提到了1800元。更无奈的是,当他向身边的朋友抱怨时,却发现,原来很多朋友
《时代周刊》给韩寒戴上“桂冠”后,网络也前所未有的掀起对“韩寒现象”的反思:或炮轰他或批评社会。他对争论保持沉默,与此同时,越来越多出现在商业活动中。与以往对他的“一边倒”支持不同,粉丝的担忧也与日俱增。接受南都周刊专访时,韩寒称自己并非原始意义上的精英,在意的是怎么玩得风情万种。对舆论给他的标签,他认为,意见领袖、青年领袖这样的词听着就挺欠揍的。    围绕他的争议,他浑然不觉,或者是他真的不当
“9·11”恐怖袭击已过九周年,但美国民众对那段痛苦的历史仍记忆犹新。当今年8月纽约市政府最终为在世贸遗址附近修建伊斯兰文化中心和清真寺放行时,美国境内立即展开了一场有关宗教自由和民众情感的全民大论战。     7月27日晚上,一抹温柔的阳光优雅地发着余光,整个曼哈顿的纽约市政厅壮丽生辉,上班族们匆匆走向地铁前往郊区。在市政厅邻近的舞蹈学习中心,一个韩裔美国男孩与一个墨西哥裔女孩正在排练。登上短短