微軟發布更新版 DeepSpeed 庫，能以更少 GPU 做到「兆級」AI 模型訓練

摘要：微軟（Microsoft）11 日發布更新版 DeepSpeed 庫，此深度學習優化庫引進新方法訓練包含上兆參數的 AI 人工智慧模型，亦即模型內部可提供預測變量。微軟宣稱名為「3D 平行」（3D parallelism）的技術，可適應不同的工作負載需求，以便運行超大模型，同時平衡擴充效率。

有數十億個參數的單一大規模 AI 模型，在一系列有挑戰性的領域取得巨大進展。研究表明之所以表現出色的原因，是因可理解語言、文法、知識、概念和情境脈絡的細微差別，能歸納演講，讓即時遊戲聊天的內容不致太偏激，能解析複雜的法律文件，甚至可透過搜尋 GitHub 產生程式碼。但訓練模型需要大量運算資源。據 2018 年 OpenAI 的分析，從 2012 年到 2018 年，規模最大的 AI 訓練中，使用運算量成長 30 萬倍，訓練時間也翻倍達 3.5 個月，遠遠超越摩爾定律。

單一上兆參數模型只需要 800 顆 GPU 便可訓練

強化更新版 DeepSpeed 運用三種技術達成「兆級」模型訓練：資料平行訓練、模型平行訓練和管線化平行訓練（Pipeline Parallel Training）。訓練一個上兆參數模型需要至少 400 顆 Nvidia A100 GPU 合起來的記憶體容量（每個 CPU 擁有 40GB 記憶體），微軟估計透過 4,000 顆 A100 以 50% 效率運行，約需 100 天才能完成訓練。這完全不是微軟與 OpenAI 共同設計 AI 超級電腦的對手，包含 1 萬多張繪圖卡，但這樣的規模下想獲得高運算效率往往很困難。在四級管線階段，DeepSpeed 將大型模型分為較小組件（層）。每級管線階段的階層會進一步劃分給 4 個「worker」，它們會執行實際訓練。每個管道都可在兩個資料平行實例複製，且 worker 會映射到多 GPU 系統。拜上述及其他效能改進之賜，微軟表示，單一上兆參數模型只需 800 顆 Nvidia V100 GPU 便可訓練。

詳見全文Full Text：科技新報

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

微軟發布更新版 DeepSpeed 庫，能以更少 GPU 做到「兆級」AI 模型訓練

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

Popular Tags

	今日	33
	昨日	1550
	本週	5894
	本月	36388
	總訪客量	2119839