AI & Machine Learning

DeepSeek-V3:MXFP8とDeepEPでB200のプレトレーニングが41%向上

巨大AIモデルの訓練では1秒が勝負だ。今、画期的な精度フォーマットと通信最適化のコンボが、限界をぶち破ろうとしている。

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
DeepSeek-V3がB200で41%高速化:MXFP8とDeepEPの妙技 — Open Source Beat

Key Takeaways

  • MXFP8とDeepEPでDeepSeek-V3 671BのNVIDIA B200上プレトレーニングスループットが41%向上。
  • MXFP8はMoEの計算ボトルネックをGEMM加速で、DeepEPはGPU間通信を最適化。
  • 併用で相乗効果が顕著、累積的な高速化を実現。
  • 大規模AI訓練の効率化で専用ソフトウェアと数値フォーマットの重要性が高まる。

AIモデル訓練の高速化競争は、結局のところ数字とワイヤーの綱引きなのか? PyTorchとNebiusの最新成果を見ると、ミリ秒単位の削減どころか、数値精度の建築変更とGPU間通信の抜本改革が、大規模AI開発の経済性を根底から変える可能性を秘めている。目玉は、NVIDIAの最先端B200 GPU上で巨大量のDeepSeek-V3 Mixture-of-Experts (MoE)モデルのプレトレーニングスループットが41%向上したことだ。これぞ「高速訓練」ではなく、パラダイムシフトの予感。

企業風の美辞麗句を剥ぎ取ろう。実際のところは、低レベルエンジニアリングのシンフォニーだ。DeepSeek-V3チームはPyTorchとNebiusと組んで、16Bと671BパラメータのMoE巨獣を256 GPUクラスタで回し、2つの直交しつつ補完的な最適化をぶつけた。一つはMXFP8。NVIDIA B200のテンソルコアを活かしたFP8(8ビット浮動小数点)算術の特殊仕様だ。もう一つはDeepEP。MoEがGPU間で海量データをやり取りする難問を解くカスタム通信ライブラリ。

二正面作戦:MXFP8とDeepEP

MoEモデルの大規模訓練の課題は二重だ。まず膨大な計算負荷。データが動的に「エキスパート」ネットワークに振り分けられ、行列乗算(GEMM)の洪水が発生。最強ハードでも耐えうるか怪しい。NVIDIAのBlackwellアーキテクチャは第5世代テンソルコアでMXFP8をネイティブサポート。このフォーマットは標準FP8と違い、細かいスケーリングで数値忠実度を保ちつつ、GEMMの理論ピークスループットを叩き出す。目的は単純。精度を落とさず計算を速くする。実験では特にMoEエキスパート層のグループ化GEMMで顕著な加速を確認。

二つ目のボトルネック、MoEではこれが厄介な通信だ。MoEの各層でトークンをエキスパートに振り分ける2回の「all-to-all」通信が必要。ルーティングがランタイムで動的決定されるため、予測パターンの標準プリミティブが苦戦。モデルとクラスタがデカくなると致命的。DeepEPがここで登場。汎用コレクティブ通信を捨て、NVLinkとRDMAカーネルを高度最適化。CPU介入を最小化し、GPU直通通信を実現。これが変動的・高ボリューム転送に不可欠だ。

“DeepEPは標準all-to-allバックエンドを、GPUが直接ウェイトを送れる専用NVLinkとRDMAカーネルに置き換え、CPU介入を減らしてレイテンシを低減する。”

本当の魅力は相乗効果。MXFP8が計算を、DeepEPが通信を狙う。別々なら足し算だが、併用で掛け算。671Bモデルで報告された41%向上はDeepEP単独の32%+MXFP8の寄与ではない。パイプライン全体の再設計による累積効果だ。

ベンチマークを超えて:実世界への波及

これは特殊GPUクラスタのテックデモじゃない。影響は広範だ。基盤モデルや大規模言語モデル、複雑生成システムを構築・訓練する組織にとって、効率1%向上は計算コスト削減とイテレーション高速化に直結。671Bパラメータ訓練は天文学的プロジェクト。41%時間短縮ならエネルギー消費とクラウド料金も激減。不可能が少し現実味を帯びる。

B200のような最先端ハード周りのエコシステム成熟も示唆。生の馬力だけじゃ足りない。ソフトウェアスタックも同レベルで洗練を。TorchAO(MXFP8用)やDeepEPのようなPyTorchネイティブツールが、オープンソースコミュニティとNebiusのようなクラウドプロバイダがチップのポテンシャルを解き放つインフラを構築中。全実験が再現可能という点も信頼性が高い。

MXFP8はMoE訓練の未来か?

成果は文句なしに凄いが、懐疑も必要。MXFP8は16Bモデルで収束劣化なしだが、混合精度フォーマットだ。数値安定性と長時間訓練の収束保証に悪魔が潜む。精度削減で後々深刻問題が出た例は山ほどある。ただ、Microscaling FP8の構造とTorchAO経由の慎重統合は、MoE特有GEMMのリスクを抑える設計。真価はさらに巨大モデルと長丁場で問われる。

この実験はMoEの重要アーキ決定を浮き彫り。計算と通信のバランスだ。モデル肥大で通信オーバーヘッドが支配。DeepEP成功は、ハード意識通信カーネルが次世代AIに不可欠と示す。シリコン最適化は半分。ソフトウェアとシステム設計が連動進化せねば。

物語はここで終わらない。MoEのような特定アーキ向け専用最適化が主役の新章始まりだ。GPU追加頼みの時代から、巧みなソフトウェアと特殊数値フォーマットでブルートフォース超えのパフォーマンスを引き出す洗練アプローチへ移行。効率AI訓練レースは熱く、MXFP8とDeepEPが先頭集団を定義する。


🧬 Related Insights

Frequently Asked Questions

What is MXFP8? MXFP8 (Microscaling FP8) は、32要素の小ブロックで共有指数を使い、細かいスケーリングで数値忠実度を保ちつつFP8ハードを活かした低精度数値フォーマットだ。

How does DeepEP improve communication? DeepEPは標準コレクティブ通信を最適化NVLinkとRDMAカーネルに置き換え、GPU直通でCPU介入とレイテンシを減らす。MoEの動的all-to-allパターンに欠かせない。

Will these optimizations work for all AI models? MXFP8とDeepEPはグループGEMMと動的all-to-allに依存重いMoEモデルに特に有効。混合精度と通信最適化の原則は汎用だが、アーキによる実装詳細と効果は異なる。

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Frequently asked questions

What is MXFP8?
MXFP8 (Microscaling FP8) は、32要素の小ブロックで共有指数を使い、細かいスケーリングで数値忠実度を保ちつつFP8ハードを活かした低精度数値フォーマットだ。
How does DeepEP improve communication?
DeepEPは標準コレクティブ通信を最適化NVLinkとRDMAカーネルに置き換え、GPU直通でCPU介入とレイテンシを減らす。MoEの動的all-to-allパターンに欠かせない。
Will these optimizations work for all AI models?
MXFP8とDeepEPはグループGEMMと動的all-to-allに依存重いMoEモデルに特に有効。混合精度と通信最適化の原則は汎用だが、アーキによる実装詳細と効果は異なる。

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by PyTorch Blog