在LLama 3訓(xùn)練期間，英偉達(dá)H100和HBM3內(nèi)存故障占據(jù)了一半

發(fā)布人：芯智訊時(shí)間：2024-09-02 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

7月28日消息，Meta近期發(fā)布了目前全球最強(qiáng)的開(kāi)源大模型LLAMA 3.1 405B，引發(fā)了業(yè)界的關(guān)注。近日，Meta發(fā)布了關(guān)于LLAMA 3.1 405B的研究文章，詳細(xì)介紹了其在 16,384 個(gè) 英偉達(dá)（NVIDIA）H100 80GB GPU 的集群上訓(xùn)練Llama 3.1 405B 模型所遇到的問(wèn)題。

據(jù)介紹，LLAMA 3.1 405B在16,384 個(gè) H100 80GB GPU 的集群上持續(xù)訓(xùn)練了54天，在此期間遇到了 419 個(gè)意外的組件故障，平均每三個(gè)小時(shí)就發(fā)生一次故障。其中一半的故障，都是由于GPU 或其板載 HBM3 內(nèi)存問(wèn)題。

超級(jí)計(jì)算機(jī)是極其復(fù)雜的設(shè)備，使用數(shù)以萬(wàn)計(jì)的處理器、數(shù)十萬(wàn)個(gè)其他芯片和數(shù)百英里的電纜連接在一起。在一臺(tái)復(fù)雜的超級(jí)計(jì)算機(jī)中，每隔幾個(gè)小時(shí)就會(huì)發(fā)生故障，這是正常的，開(kāi)發(fā)人員的主要技巧是盡量確保系統(tǒng)保持正常運(yùn)行，無(wú)論這種局部故障如何。

比如高達(dá)16,384個(gè)H100 GPU 訓(xùn)練的規(guī)模和同步性質(zhì)使其容易失敗。如果故障未得到正確緩解，單個(gè) GPU 故障可能會(huì)中斷整個(gè)訓(xùn)練作業(yè)，從而需要重啟。然而，LLAMA 3 團(tuán)隊(duì)保持了超過(guò)90%的有效訓(xùn)練時(shí)間。

總結(jié)來(lái)說(shuō)，在為期 54 天的訓(xùn)練中，有 466 次工作中斷，其中 47 次是計(jì)劃性的，419 次是意外的。計(jì)劃內(nèi)中斷是由于自動(dòng)化維護(hù)造成的，而意外的中斷主要源于硬件問(wèn)題。其中，GPU 問(wèn)題是最大的一類，占意外中斷的 58.7%。只有三起中斷事件需要大量的人工干預(yù)，其余的則由自動(dòng)化管理。

在 419 次意外中斷中，148 次（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 次（17.2%）是由 HBM3 內(nèi)存故障引起的，這并不奇怪，因?yàn)?Nvidia 的 H100 GPU 消耗約 700W 并承受大量熱應(yīng)力。有趣的是，在 54 天內(nèi)只有兩個(gè) CPU 出現(xiàn)故障。

雖然 GPU 是最重要的組件，但恰好也很脆弱，但 41.3% 的意外中斷是由多種因素引起的，包括軟件錯(cuò)誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

為了提高效率，Meta 的團(tuán)隊(duì)減少了作業(yè)啟動(dòng)和檢查點(diǎn)時(shí)間，并開(kāi)發(fā)了專有的診斷工具。PyTorch 的 NCCL 飛行記錄器被廣泛用于快速診斷和解決掛起和性能問(wèn)題，尤其是與 NCCLX 相關(guān)的問(wèn)題。該工具可捕獲集體元數(shù)據(jù)和堆棧跟蹤，有助于快速解決問(wèn)題。

編輯：芯智訊-浪客劍

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。