原标题:覆按一次履历 419 次惟恐故障!英伟达 GPU 也差点玩不转 405B 模子淫民导航,全靠 Meta 工程师后天救场!
最近,Meta 在一份照管论说中揭示了覆按 Llama 3 405B 参数模子的首要挑战:该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行,在覆按技艺平均每三个小时就发生一次故障, 54 天内履历了 419 次惟恐故障。
这些故障中,有一半以上的情况都归因于 GPU 过甚高带宽内存 (HBM3)。由于 GPU 覆按任务的规模宏大和高度同步,Llama 3 很容易发生故障,且单个 GPU 故障就会中断所有这个词这个词覆按经过,导致必须再行启动。
不外,据先容,尽管存在这些问题,Llama 3 团队仍在复旧自动化集群吟唱(举例固件和 Linux 内核升级)的同期,完毕了进步 90% 的有用覆按技艺(有用覆按技艺是指实质用于有用覆按的技艺与经过技艺的比例)。
西西艺术正如一句陈腐的超等计较成语所言,“大规模系统唯独不错笃定的便是失败。”超等计较机是极其复杂的缔造,使用数万个处理器、数十万个其他芯片和数百英里长的电缆。在复杂的超等计较机中,每隔几个小时出现故障是很正常的,而开导东说念主员的主要决窍便是确保系统在出现这种局部故障时仍能正常运行。
58.7% 惟恐中断源于 GPU,三起事件需要权臣东说念主工打扰
据悉,在为期 54 天的预覆按中,共有 466 次使命中断。其中,47 次是筹画内中断,是由于自动化吟唱酿成的,如固件升级或操作员发起的竖立更新或数据集更新操作;419 次是惟恐中断,主要源于阐发的硬件问题,包括 GPU、主机组件故障或疑似与硬件联系的问题,如静默数据损坏和未筹画的单个主机吟唱事件。
GPU 问题是最主要的惟恐中断类别,占所挑升外问题的 58.7%,包括 NVLink 等各式 GPU 故障及 HBM3 内存故障。这并不奇怪,因为 Nvidia 的 H100 GPU 奢侈约 700W 并承受大都热应力。尽管出现了大都的故障,但唯有三起事件需要权臣的东说念主工打扰,剩下的问题均能由自动化处理。
其余 41.3% 的惟恐中断是由软件荒唐、收罗电缆和收罗适配器羼杂酿成的。意旨的是淫民导航,在此技艺唯有两个 CPU 出现故障。
为期 54 天的 Llama 3 405B 预覆按技艺,对惟恐中断的根柢原因进行分类。
Llama 3 405B 大模子覆按团队靠近的另一个挑战是数以万计的 GPU 同期发生功耗变化,给数据中心的电网带来了压力。
在覆按经过中,千千万万的 GPU 可能同期增多或减少功耗,举例恭候查抄点完成或集体通讯收尾,或者所有这个词这个词覆按任务的启动或关闭。当这种情况发生时,会导致数据中心的功耗瞬时波动达到几十兆瓦的数目级,可能使电网不胜重担。
而这是一个抓续存在的挑战,意味着 Meta 必须确保其数据中心有迷漫的电力,才气吟唱 405B 模子以及将来更大规模 Llama 模子的正常运转。跟着 AI 模子复杂性的不停增长,所需的计较资源也在增多。
完毕 90% 有用覆按技艺背后的勤恳
为了提升适度,Meta 开导了多种器具和优化战术,包括减少任务启动和查抄点技艺、平时使用 PyTorch 内置的 NCCL 翱纪行载器,以及识别滞后的 GPU。其中,NCCLX 在故障检测和定位方面线路了至关蹙迫的作用,尤其是关于 NVLink 和 RoCE 联系问题,与 PyTorch 的集成允许监控和自动超时由 NVLink 故障引起的通讯停顿。
据了解,PyTorch 的 NCCL 翱纪行载器不错将集体元数据和堆栈追踪记载到环形缓冲区中,从而好像在大规模的情况下快速会诊和贬责挂起和性能问题,尤其是与 NCCLX 联系的问题。另外,由于 Meta 在收罗中羼杂使用了 NVLink 和 RoCE,使得大规模覆按中的调试问题变得愈加复杂。通过 NVLink 的数据传输频频通过 CUDA 内核发出的加载 / 存储操作完成,而云尔 GPU 或 NVLink 邻接的故障频频线路为 CUDA 内核内的加载 / 存储操作停滞,且不会复返明确的荒唐代码。
NCCLX 通过与 PyTorch 的空洞协同联想提升了故障检测和定位的速率和准确性,允许 PyTorch 访谒 NCCLX 的里面景色并追踪联系信息。天然无法皆备驻扎由于 NVLink 故障导致的挂起,但系统会监控通讯库的景色,并在检测到此类挂起时自动超时。此外,NCCLX 还会追踪每次 NCCLX 通讯的内核和收罗活动,并提供故障 NCCLX 集体的里面景色快照,包括所有这个词等第之间已完成和待完成的数据传输。
有时,硬件问题可能会导致出现仍然运行但速率慢慢的“拖后腿者”,还很难被检测出来。而即使唯有一个“拖后腿者”也可能放慢千千万万个其他 GPU 的运行速率,频频线路为正常但速率慢慢的通讯。对此,Meta 开导了用于优先处理来自采用程度组的潜在问题通讯的器具,从而有用检测并实时贬责过期者,确保将速率放慢到最低,保抓合座覆按适度。
还有一个意旨的不雅察是,环境成分对大规模覆按性能的影响。关于 Llama 3 405B,Meta 重视到一天中会有一段技艺出现 1-2% 的模糊量变化,这种波动是因为中午较高的温度影响了 GPU 的动态电压和频率挽救,从而影响覆按性能。但这不是什么大问题,GPU 的动态电压和频率缩放频频都会受到温度变化的影响。
结 语
接洽到一个包含 16384 个 H100 GPU 的集群在 54 天内履历了 419 次惟恐故障,每 24 小时 7.76 次,咱们不禁思到,xAI 配备了 100000 个 H100 GPU 的孟菲斯超等计较机集群(Memphis Supercluster)发生故障的频率是若干?
上周,埃隆·马斯克(Elon Musk)在应对平台 X 上吹嘘我方启动了“寰宇上最遒劲的东说念主工智能覆按集群”,他将在本年 12 月之前创建“寰宇上所野心最遒劲的东说念主工智能”。据悉,孟菲斯超等计较机集群仍是运行进行覆按,领受了液冷散热和单一的 RDMA 收罗互连架构。
按 GPU 规模比例来看,xAI 的孟菲斯超等计较机集群可能会靠近指数级更高的故障率淫民导航,出现故障的组件数目或会增多六倍,这给其将来的 AI 覆按带来了更大的挑战。