AI & Machine Learning

DeepSeek-V3: MXFP8 ve DeepEP, B200 Ön Eğitimini %41 Hızlandı

Devasa AI modellerini eğitirken her saniye altın değerinde. Yeni hassasiyet formatları ve iletişim optimizasyonlarının zekice birleşimiyle mümkün olanın sınırlarını zorluyoruz.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
DeepSeek-V3, B200'de %41 Daha Hızlı Uçuyor: MXFP8 ve DeepEP Dansı — Open Source Beat

Key Takeaways

  • MXFP8 ve DeepEP, NVIDIA B200 GPU'larında DeepSeek-V3 671B için %41 ön eğitim verimi kazancı sağladı.
  • MXFP8, MoE modellerindeki hesaplama darboğazlarını GEMM'leri hızlandırarak hedefliyor; DeepEP ise GPU'lar arası iletişimi optimize ediyor.
  • Birleşik optimizasyonlar önemli sinerji etkileri göstererek kümülatif hızlanmalar yaratıyor.
  • Deney, büyük ölçekli AI eğitimi için özel yazılımların ve sayısal formatların giderek artan önemini vurguluyor.

Daha hızlı AI modeli eğitimi arayışı, aslında karmaşık bir sayılar ve kablolar oyunu mu? Bunu söylüyoruz çünkü PyTorch ve Nebius’tan gelen son başarı, eğitim sürelerinden sadece milisaniyeler tıraş etmekle kalmıyor; sayısal hassasiyetteki mimari değişimler ve GPU’lar arası iletişimin büyük ölçekli AI geliştirme ekonomisini kökten nasıl değiştirebileceğini derinlemesine inceliyor. Manşet verisi? NVIDIA’nın en yeni B200 GPU’larında devasa DeepSeek-V3 Uzmanlar Karışımı (MoE) modelleri için ön eğitim veriminde %41’lik muazzam artış. Bu sadece ‘daha hızlı eğitim’ değil; potansiyel bir paradigma değişimi.

Kurumsal cilayı bir kenara bırakalım. Burada düşük seviyeli mühendislik senfonisi yaşanıyor. DeepSeek-V3 ekibi, PyTorch ve Nebius ile birlikte 16B ve 671B parametreli MoE canavarlarını 256 GPU’luk bir kümede çalıştırırken iki birbirini tamamlayan optimizasyon tekniğini devreye soktu. İlki MXFP8: NVIDIA B200 tensor çekirdeklerini kullanan özel bir FP8 (8-bit kayan nokta) aritmetiği çeşidi. İkincisi DeepEP: MoE modellerinin GPU’lar arasında devasa veri yığınlarını nasıl aktardığı sorununu çözen özel bir iletişim kütüphanesi.

Çift Taraflı Saldırı: MXFP8 ve DeepEP

Ölçekli MoE modeli eğitimi zorlukları ikiye ayrılıyor. Birincisi saf hesaplama yükü. Bu modeller veriyi dinamik olarak uzman ‘ağlara’ yönlendiriyor, matris çarpımlarını (GEMM’leri) sel gibi akıtıyor ve en güçlü donanımları bile zorluyor. NVIDIA’nın Blackwell mimarisi, 5. nesil tensor çekirdekleriyle MXFP8’i doğal destekliyor. Standart FP8’den farklı olarak bu format, daha ince taneli ölçekleme kullanıyor; sayısal doğruluğu korurken GEMM’lerde donanımın tepe teorik verimine ulaşıyor. Amaç basit: Matematiksel işlemleri hızlandır, doğruluğu feda etme. Deneyler, özellikle MoE uzman katmanlarını domine eden gruplanmış GEMM’ler için MXFP8’in ciddi hızlanma sağladığını doğruluyor.

İkinci darboğaz, MoE için çoğu zaman daha sinsi olan iletişim. Her MoE katmanı, token’ları atanmış uzmanlara göndermek ve sonuçları toplamak için iki ‘all-to-all’ iletişim adımı gerektiriyor. Token yönlendirmesi dinamik — model runtime’da belirliyor — bu yüzden öngörülebilir veri akışları için tasarlanmış standart iletişim araçları tökezliyor. Model ve küme büyüdükçe darboğaz devasa hale geliyor. DeepEP burada devreye giriyor; genel toplu iletişimleri bırakıp NVLink ve RDMA çekirdekleri için yüksek optimizasyonlu kernel’lar kullanıyor. Kritik nokta: CPU’yu minimuma indirerek GPU’ların doğrudan iletişim kurmasını sağlıyor, değişken ve yüksek hacimli aktarımlar için hayati.

“DeepEP, standart all-to-all arka ucunu özel NVLink ve RDMA kernel’larıyla değiştiriyor; GPU’ların ağırlıkları doğrudan göndermesine izin vererek CPU katılımını azaltıyor ve gecikmeyi düşürüyor.”

Asıl büyüleyici kısım sinerji. MXFP8 hesaplama tarafını hedefliyor, DeepEP iletişimi. Birlikte uygulandıklarında bu farklı optimizasyonlar basitçe toplanmıyor; çarpılıyor. 671B model için raporlanan %41 kazanç, DeepEP’in %32’si artı MXFP8 katkısı değil. Kümülatif etki; tüm pipeline verimlilik için yeniden tasarlanmış.

Kıyaslamaların Ötesinde: Gerçek Dünya Etkisi

Bu sadece özel bir GPU kümesi için teknik demo değil. Etkileri geniş. Dev AI modelleri kuran ve eğiten kuruluşlar —temel modeller, büyük dil modelleri veya karmaşık üretken sistemler— için her verimlilik puanı doğrudan hesaplama maliyetlerini düşürüyor ve yineleme döngülerini hızlandırıyor. 671B parametreli bir modeli eğitmek astronomik bir iş. Eğitim süresinden %41 kısarsan, enerji tüketimini ve bulut faturalarını da kısaltırsın; imkansızı biraz daha mümkün kılarsın.

Ayrıca B200 gibi en yeni donanımlar etrafında olgunlaşan bir ekosistemi işaret ediyor. Ham güce sahip olmak yetmez; yazılım yığını da sofistike olmalı. TorchAO (MXFP8 için) ve DeepEP gibi PyTorch doğal araçları, açık kaynak topluluğunun ve Nebius gibi bulut sağlayıcılarının bu güçlü çiplerin potansiyelini açığa çıkarmak için altyapı kurduğunu gösteriyor. Tüm deneylerin tamamen yeniden üretilebilir olması güvenilirliği bir kat daha artırıyor.

MXFP8, MoE Eğitiminin Geleceği mi?

Sonuçlar inkar edilemez derecede etkileyici olsa da sağlıklı bir şüphecilik şart. MXFP8, küçük 16B modelde yakınsamada bozulma göstermese de karışık hassasiyet formatı. Sayısal kararlılık ve uzun eğitimlerde yakınsama garantilerinin detaylarında şeytan gizli. Agresif hassasiyet düşürmelerin ileride ince ama ciddi sorunlara yol açtığı örnekleri bolca gördük. Yine de MXFP8’in (Microscaling FP8) mimarisi ve TorchAO aracılığıyla dikkatli entegrasyonu, özellikle MoE’deki GEMM türleri için bu riskleri azaltmak üzere tasarlanmış görünüyor. Gerçek test, daha büyük modellere ve uzun eğitimlere ölçekleme olacak.

Bu deney ayrıca MoE için kritik mimari kararı vurguluyor: Hesaplama ve iletişimi nasıl dengeleyeceksin. Modeller büyüdükçe iletişim yükü hakim oluyor. DeepEP’in başarısı, donanım farkında özel iletişim kernel’larının lüks değil zorunluluk olduğunu gösteriyor; yeni nesil AI yeteneklerini açmak için. Silikonu optimize etmek savaşın yarısı; yazılım ve sistem tasarımı adım adım evrilmeli.

Hikaye burada bitmiyor. Bu, belirli model mimarileri gibi MoE için özel optimizasyonların ön plana çıktığı yeni bir bölümün başlangıcı. Soruna daha fazla GPU atmak dönemi, incelikli yaklaşımlara yerini bırakıyor; akıllı yazılımlar ve özel sayısal formatlar kaba kuvvetin başaramayacağı performansı açığa çıkarıyor. Daha verimli AI eğitimi yarışı başladı ve MXFP8 ile DeepEP gibi araçlar öncü araçlar.


🧬 İlgili İçgörüler

Sıkça Sorulan Sorular

MXFP8 nedir? MXFP8 (Microscaling FP8), 32 elemanlık küçük bloklar için paylaşımlı üs kullanan düşük hassasiyetli sayısal format; daha ince taneli ölçekleme ile sayısal doğruluğu korurken FP8 donanımını hız için kullanıyor.

DeepEP iletişimi nasıl iyileştiriyor? DeepEP, standart toplu iletişimi GPU’ların daha doğrudan iletişim kurduğu optimize NVLink ve RDMA kernel’larıyla değiştiriyor; CPU katılımını ve gecikmeyi azaltıyor, MoE modellerindeki dinamik all-to-all pattern’leri için kritik.

Bu optimizasyonlar tüm AI modellerinde çalışır mı? MXFP8 ve DeepEP gibi bu özel optimizasyonlar, gruplanmış GEMM’lere ve dinamik all-to-all iletişime bağımlı Uzmanlar Karışımı (MoE) modelleri için özellikle faydalı. Karışık hassasiyet ve optimize iletişim prensipleri genel uygulanabilir olsa da, tam uygulama detayları ve kazanımlar model mimarilerine göre değişebilir.

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by PyTorch Blog