狠狠色噜噜狠狠狠狠2021,久久精品国产亚洲av麻豆白洁,777米奇影视盒,国内精品老年人视频网站

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

投稿用戶 ? 2024年5月17日上午8:29 ? 科研百科 ? 閱讀 35

機器之心報道

作者：杜偉、陳萍

繼1.0.0 版本推出不到兩個月的時間，grid.ai CEO、紐約大學博士 William Falcon 創(chuàng)建的 PyTorch Lightning 于近日宣布推出 1.1 版本。新版本新增了 sharded training 功能，在多 GPU 上訓練深度學習（DL）模型時可以節(jié)省 50% 以上的內(nèi)存，并且沒有性能損失，也不需要更改代碼。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

與 Facebook Research 的 FairScale 團隊一道，PyTorch Lightning 團隊在 1.1 版本中推出了 Sharded Training beta 版。在下面的博客文章中，PyTorch Lightning 團隊的研究工程師 Sean Narenthiran 展示了只需要在 Lightning 訓練器中增加單一的 flag，則在多 GPU 上訓練 DL 模型時就會實現(xiàn)內(nèi)存的大幅度降低。

此外，作者還介紹了如何使用 NeMo 來預訓練 Transformer LM，并實現(xiàn) 55% 的內(nèi)存提升，以及訓練其他 PyTorch Lightning 賦能模型時進一步的內(nèi)存降低。除了給出使用 NeMO Transformer LM 時 NLP 中的結果之外，作者還分別展示了語音識別中使用 DeepSpeech 2 以及計算機視覺中訓練 SwAV ResNet 和 iGPT 的結果。

PyTorch Lightning 團隊正努力增添新的模型并行化技術并保證魯棒性，并且與 FairScale 團隊展開合作提升所有 PyTorch Lightning 研究中的模型擴展性能。

更多使用技巧參考：https://pytorch-lightning.readthedocs.io/en/stable/multi_gpu.html#multi-gpu-training

更大的模型，更高的準確率

語言建模趨向于更大的預訓練模型，這種模型在下游任務中表現(xiàn)得更好。OpenAI 的 GPT-3 就是一個很好的例子，該模型有 1750 億個參數(shù)，在訓練時需要大量的計算與優(yōu)化技巧。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

比較了語言模型參數(shù)隨時間變化的曲線，GPT-3 繼續(xù)在規(guī)模上超越。（圖源：Microsoft）

訓練大型模型時，內(nèi)存很寶貴。當擴展模型大小時，GPU 的內(nèi)存會被耗盡，而這又限制了訓練模型的大小。這使得團隊不斷嘗試更智能的內(nèi)存管理技術。

Lightning 的 Sharded Training

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

傳統(tǒng)分布式訓練 VS Sharded Training。參數(shù)（P）在 GPU 之間拆分，以減少每個 GPU 的內(nèi)存開銷。Sharded Training 則拆分了優(yōu)化器狀態(tài)和梯度。

受微軟 Zero Redundancy Optimizer (ZeRO) 的啟發(fā)，Sharded Training 可以減少在多個 GPU 上訓練大型模型所需的內(nèi)存，訓練過程中在 GPU 之間「切分」模型。Sharding 包括將參數(shù)分割到不同的設備上，減少每個設備所需的內(nèi)存。特別地，優(yōu)化器狀態(tài)和梯度可以獨立于模型進行切分，并且可以減少所有架構所需的內(nèi)存。

Sharded Training 是在 FairScale 基礎上構建的，與 PyTorch 兼容并得到優(yōu)化。FairScale 是一個 PyTorch 擴展庫，用于高性能以及大規(guī)模訓練模型和數(shù)據(jù)并行。除了切分技術之外，它具有層間和層內(nèi)并行性以及跨多個 GPU 和主機拆分模型。

通過在 GPU 上進行智能梯度和優(yōu)化器狀態(tài) sharding，可以分別將內(nèi)存成本（基于微軟論文《ZeRO: Memory Optimizations Toward Training Trillion Parameter Models》的數(shù)據(jù)）降低大約 4 倍和 8 倍。這有利于所有模型，在所有模型架構以及訓練過程中提供較低的內(nèi)存使用率。需要注意的是，由于節(jié)點之間所需通信量的增加以及缺乏并行性，「naive implementations」導致運行速度急劇下降。

通過與 FairScale 的緊密合作，現(xiàn)在可以在所有 lightning 模塊上實現(xiàn) 55% 以上的內(nèi)存減少，只需通過一個單一的 flag，這意味著更大的機型可以適應內(nèi)存有限的多張 GPU。

在不更改代碼的情況下啟用 Sharded Training

為了展示在 Lightning 中使用 Sharded Training 有多簡單，使用 NVIDIA 的一個流行庫 NeMo 來訓練 Lightning 支持的對話 AI 模型。使用 NeMo 中提供的 vanilla Transformer LM 模型，有 12 億個參數(shù)，該模型對訓練內(nèi)存要求很高。在訓練大型語言模型時，內(nèi)存是提高模型大小或提升 GPU 飽和度的寶貴資源。此外使用 WikiText 數(shù)據(jù)集訓練模型。

首先下載數(shù)據(jù)集并使用 NVIDIA NeMo 提供的處理腳本進行提取，然后在 NeMo 中找到預配置文件定義模型配置，修改數(shù)據(jù)輸入指向自定義數(shù)據(jù)集。為了進行基準測試，還構建了一個簡單的基于單詞的詞匯表。

在設置模型參數(shù)之后，用戶只需要將 Sharded 插件 flag 傳遞給支持 Sharded Traing 的訓練器就可以了。用戶還可以通過增加 GPU 數(shù)量和啟用本地混合精度（native mixed precision）來實現(xiàn)內(nèi)存和速度的進一步提升。分區(qū)優(yōu)化器和 GPU 之間的通信可以在后臺自動處理。

下面介紹了使用 Lightning 內(nèi)置 Sharding 與普通 GPU 擴展時每臺設備的內(nèi)存提升情況，每臺設備的內(nèi)存分配保持不變。不僅如此，Lightning 團隊還給出了 SwAW、DeepSpeech 2 和 iGPT 等其他 PyTorch Lightning 支持模型的測試結果。

結果表明，每個 GPU 上最高節(jié)省內(nèi)存 15GiB，從而可以增加模型能力。例如，在硬件一樣的情況下，訓練 Transformer LM 時模型參數(shù)量可以從 12 億增至 20 億。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

使用 8 個 A100s 時訓練 Transformer LM、SwAV Wide ResNet、DeepSpeech2 和 iGPT 時的平均峰值內(nèi)存比較。

隨著 GPU 之間通信的優(yōu)化，與標準分布式加速器相比，節(jié)點內(nèi)性能的擴展效果更好。請注意，隨著向很多節(jié)點的擴展，內(nèi)存降低的效果開始減弱，這是因為其他因素成為了瓶頸。但是，Sharded training 依然帶來良好的 throughout 擴展。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

在 8 個具有相同超參數(shù)和批大小的 A100s 上的平均 Epoch time 比較，越低越好。

博客地址：https://seannaren.medium.com/introducing-pytorch-lightning-sharded-train-sota-models-with-half-the-memory-7bcc8b4484f

贊 (0)

投稿用戶

it項目管理系統(tǒng)的主要功能模塊(it 項目管理系統(tǒng))

上一篇 2024年5月17日上午8:23

ssm的項目(ssm項目管理)

下一篇 2024年5月17日上午8:35

能將視頻格式轉(zhuǎn)換成webm的軟件有哪些？這里介紹三款軟件！（webm視頻格式轉(zhuǎn)換器）

能將視頻格式轉(zhuǎn)換成webm的軟件有哪些？如果你想在互聯(lián)網(wǎng)上分享你的視頻，你需要將它們轉(zhuǎn)換為適合網(wǎng)絡的格式。一種被廣泛接受的格式是WebM。WebM支持高質(zhì)量的視頻和音頻，同時具有良…

投稿用戶
科研百科 2024年7月26日
20
網(wǎng)上購物管理系統(tǒng)項目畢業(yè)ppt

網(wǎng)上購物管理系統(tǒng)項目畢業(yè)ppt 隨著互聯(lián)網(wǎng)的普及，網(wǎng)上購物已經(jīng)成為人們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠?。在這個信息化的時代，網(wǎng)上購物已經(jīng)成為一種趨勢，而網(wǎng)上購物管理系統(tǒng)則是實現(xiàn)這種趨勢的…

投稿用戶
科研百科 2025年1月20日
10
科研項目分類評價辦法

科研項目分類評價辦法科研項目分類評價辦法是指為了科學、客觀、公正地評價科研項目的質(zhì)量和效果，依據(jù)不同領域和目的，對科研項目進行分類評價的方法。本文將介紹科研項目分類評價辦法的主要…

投稿用戶
科研百科 6天前
10
cmmi項目管理流程

cmmi項目管理流程 cmmi(Commandment of Management in Information Technology) 項目管理流程是一種規(guī)范，它定義了在信息技術…

投稿用戶
科研百科 2024年8月15日
30
什么是項目信息管理系統(tǒng)

什么是項目信息管理系統(tǒng)？項目信息管理系統(tǒng)是一種用于管理和跟蹤項目信息的軟件系統(tǒng)。它通常用于團隊或組織中有多個項目同時開展，并且需要對項目進展、成本、時間和質(zhì)量等進行監(jiān)控和管理。 …

投稿用戶
科研百科 2025年1月14日
20
科研項目的資金

科研項目的資金是推動科技發(fā)展的關鍵之一。的資金充足，可以使得科研項目得以順利進行，取得更好的研究成果。然而，科研項目的資金通常很難獲得，因此需要政府、企業(yè)和社會各界的支持和幫助。 …

投稿用戶
科研百科 4天前
00
綜合項目管理系統(tǒng)系統(tǒng)

綜合項目管理系統(tǒng)系統(tǒng)：提升項目管理效率的關鍵隨著現(xiàn)代企業(yè)競爭的加劇，項目管理已經(jīng)成為了企業(yè)發(fā)展中不可或缺的一部分。但是，傳統(tǒng)的項目管理方式已經(jīng)無法滿足現(xiàn)代企業(yè)對于項目管理的要求。…

投稿用戶
科研百科 2024年5月25日
330
科技部重點研發(fā)計劃公示

科技部重點研發(fā)計劃公示為加強科技研發(fā)，提高我國自主創(chuàng)新能力，科技部于2022年12月發(fā)布了《國家科技重點研發(fā)計劃(2021-2025年)》，并對本次計劃的實施進行了公示。本文將詳…

投稿用戶
科研百科 2024年10月11日
740
科研百科

網(wǎng)絡主播雪梨、林珊珊偷逃稅被罰：電商直播不能再夾帶“私貨”

網(wǎng)絡主播朱宸慧（雪梨Cherie）/IC photo 隨著電商直播成為風口，某些頭部網(wǎng)絡主播動輒一天帶貨量數(shù)億、數(shù)十億，其巨大的用戶流量和變現(xiàn)能力引發(fā)各界關注。如此高的帶貨量能給網(wǎng)…

投稿用戶
2022年6月1日
5820
新疆：工會可使用會員會費組織開展紅色、生態(tài)等主題教育活動（新疆工會會費收繳標準2019）

石榴云/新疆日報訊近日，自治區(qū)發(fā)展和改革委員會網(wǎng)站發(fā)布《2023年自治區(qū)恢復擴大消費工作實施方案》，包括減稅降費溫暖市場主體、助企紓困恢復市場活力、加速汽車消費恢復、加快布局新能…

投稿用戶
科研百科 2023年9月25日
2040

狠狠色噜噜狠狠狠狠2021,久久精品国产亚洲av麻豆白洁,777米奇影视盒,国内精品老年人视频网站

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

高校導師科研項目包裝

高?？蒲许椖坎少徴袠?

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

相關推薦

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）