特斯拉dojo超级计算机,特斯拉dojo超越谷歌

阿晓 每日分享 2022-10-24 329 0

芯物品(微信公众号:aichip001)

创作者 | ZeR0

编写 | 漠影

芯物品10月1日信息,今天早上,在第二届特斯拉AI Day上,特斯拉分享其自主研发Dojo高性能计算机系统更深层次的技术性进度,并发布将来路线地图。

据了解,特斯拉第一款仿生机器人“擎天柱”大脑的就把选用Dojo高性能计算机系统。

在上一年的第一届特斯拉AI Day上,特斯拉展现了其第一款AI练习处理芯片Dojo D1,及根据该处理芯片搭建的详细Dojo群集ExaPOD,用以实行AI训练科目,向其上道车子庞大视频编辑要求提供支撑。

现阶段特斯拉已经有根据英伟达显卡GPU大型超算中心,以及一个储存30PB视频素材内容的大数据中心。

特斯拉资深专家称,特斯拉的运输队在平时的行车中累积了许多视频短片,每一个短视频多么帧图象,必须14亿帧才可以练习一个神经元网络,需要使用10万只GPU工时。而特斯拉自主研发的Dojo超算中心,可以提升30%网络的练习速率。

Dojo顶尖系统技术工程师Bill Chang说,特斯拉高性能计算机的发展目标是构建一个统一的网络加速器。

大会上,Dojo团队风采展示了根据Dojo完成Stable Diffusion在火星上运作Cybertruck的图象。

据了解,仅用4个Dojo机柜就能替代由4000个GPU所组成的72个GPU声卡机架。Dojo能把往往需要几个月工作中降低到了1周。

自去年特斯拉AI Day迄今,Dojo开发设计即将迎来一系列里程碑式,包含组装第一个Dojo机柜、开展2.2mW负载测试等,如今特斯拉在以每日打造一个Tile的速率推进工作。

特斯拉还公布其第一个ExaPOD预计在2023年第一季度竣工,打算在帕洛阿尔托总修建7台ExaPOD。

一、迅速尝试错误,注重线膨胀系数

特斯拉一直尝试提升Dojo定制的扩展性,并且以“迅速尝试错误”的态度来克服挑战。

Dojo网络加速器具备单独可扩展性测算平面图、全局性寻址方式迅速储存器和统一的带宽测试 低延迟。

Bill Chang尤其提到电压调节控制模块,它具有较高的性能、密度高的(0.86A/mm2)、繁杂集成化。

其电压调节控制模块在24个月升级了14个版本号。

线膨胀系数(CTE)至关重要,因而特斯拉与供货商协作给予电力解决方案。其CTE减少了50%之上,Dojo的性能是原始拓展的3倍。

在Bill Chang来看,处理每一个级别密度是完成系统性能的关键所在,全部系统部件务必集成化到电源芯片中。其集成化解决方法包含用软终端电力电容器来降低震动等。

特斯拉还展现了一组以往两年间从交货定制冷液分派模块(CDU)到组装第一台集成化Dojo机柜、再从2.2MW发电机组负载测试的图片。

二、秀Dojo系统全家福照片,第一个ExaPOD来年竣工

如图是Dojo高性能计算机系统,包含D1处理芯片、练习Tile和ExaPOD群集。

D1选用tsmc7nm制程工艺,在645mm2面积上塞了500亿颗晶体三极管,BF16、CFP8算力可以达到362TFLOPS,FP32算力可以达到22.6TFLOPS,TDP(热设计功能损耗)为400W。

比较之下,一样选用tsmc7nm制程工艺、TDP达400W的英伟达显卡旗舰级计算卡A100 GPU,总面积为826mm2,晶体管数量达542亿颗,FP32最高值算力为19.5TFLOPS。

根据D1处理芯片,特斯拉发布圆晶上系统级计划方案,根据运用tsmcInFO_SoW封装技术,把所有25颗D1裸片都集成化到一个练习Tile上,每一个Dojo练习Tile耗费15kW

。特斯拉Dojo练习Tile含有测算、I/O、输出功率和水冷散热控制模块。

Dojo System Tray有快速联接、聚集集成化等特点,75mm相对高度能适用135kg。其BF16/CFP8最高值算力可以达到54TFLOPS,功能损耗100 kW。

Dojo插口处理器是一个具备带宽测试运行内存的PCIe卡,运用特斯拉自己家TTP插口。

特斯拉传输协议TTP还能够桥收到规范以太网接口,TTPOE可将规范以太网接口变换至Z平面图拓扑结构,有着高Z平面图拓扑结构连接性。

Dojo主机接口的讲解如下所示:

据了解,在10机柜系统中,Dojo ExaPOD群集将提升E级算力。

其BF16/CFP8最高值算力做到1.1EFLOPS(百亿元亿个浮点运算),并且拥有1.3TB高速SRAM和13TB带宽测试DRAM。

三、打斗英伟达显卡A100,明显降低成本

接着是Dojo ExaPOD的app栈。

其手机软件性能由硬件配置性能、使用率和网络加速器占用量综合加持确定。在其中使用率涉及到编译程序,网络加速器占用量涉及到Ingest Pipeline作用。

在系统领域,全部系统能够被称作一个总体。

依靠Dojo编译程序,用户可以将Dojo大中型分布式系统系统看作一个网络加速器。

当场,特斯拉首席工程师Rajiv Kurian分享在Dojo上运作Stable Diffusion,依据“在火星上Cybertruck”提示建立由AI产生的图象。他打趣道,看上去他在配对特斯拉设计部门以前也有很长的路。

Dojo编译程序的归一化Batch Norm结论如下所示,对比GPU有量级的延迟时间优点。

一样跑传统图像分类实体模型ResNet-50,Dojo能够实现比英伟达显卡A100更高帧数。

跑全自动标明优化算法、预测分析车辆周边全部物件室内空间占用量的神经网络模型Occupancy Networks时,对比英伟达显卡A100,Dojo能够实现性能的增长。

结论,之前得用6个GPU Box的测算花销,现如今不上1个GPU Box就能解决。

72个GPU声卡机架才可以跑完的全自动标明优化算法,现在基本上4台Dojo Cabinet机柜就能保证。

结束语:特斯拉不仅是一家汽车企业

此前在为特斯拉AI Day加热时,埃隆马斯克早已发推文预告片说本次活动目的就是为了征募人工智能机器人领域的技术工程师,因而具体内容会特别强势。

结论也与其上述,这届AI Day俨然是特斯拉前沿科技的能力充分展示,从仿生机器人的关键技术,到全自动驾驶(FSD)的各类优秀优化算法,再从Dojo超算中心的硬件软件系统,干货知识非常丰富多彩。

从一些在人工智能技术、无人驾驶、智能机器人及测算硬件配置有关的专业技术合理布局,能够看见特斯拉在下注高精尖技术里的合理布局之深之广,也无疑是特斯拉吸引高档工程项目优秀人才的最佳金饭碗。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

评论

标签列表