Developer Tools

Yapay Zeka Maliyetleri Kırpıldı: Burnless LLM API Faturaları

Yapay zeka ajanları geliştiren herkes, çok turlu konuşmaların ezici maliyetini biliyor. Şimdi, yeni bir açık kaynak projesi bu faturaları %90 oranında düşürmeyi vaat ediyor.

LLM API çağrıları için O(N²) ve O(N) maliyet eğrilerini gösteren bir diyagram.

Key Takeaways

  • Burnless, maliyet modelini karesel O(N²)'den lineer O(N)'e değiştirerek çok turlu LLM API maliyetlerini %90'a kadar düşürüyor.
  • Bu, sistem prompt'ları için Paylaşılan Önek Önbelleği ve önceki turları sıkıştıran "Kapsül Geçmişi" aracılığıyla başarılıyor.
  • Protokol satıcı tarafsızdır, bu da kullanıcılara LLM sağlayıcılarını ve yerel modelleri karıştırıp eşleştirme olanağı tanır.
  • 10 turluk bir oturum kıyaslaması, Burnless'ın Claude 3 Opus ile saf bir uygulamaya göre 0.45$'a karşılık 4.66$ maliyetli olduğunu gösteriyor.

Şöyle bir durum var. Ne işe yarar bir yapay zeka ajanı geliştirmeye kalkan herkes bu acıyı bilir. Tek bir sorguda harcanan token’lar değil sadece sorun; her bir sonraki turun getirdiği sonsuz, tekrarlayan maliyet. Düşünce basitti: her seferinde tüm konuşmayı baştan oynat. Bu da doğal olarak karesel maliyetlere yol açtı. API faturanız, dostlar, kontrolden çıkıyordu. Bir günlük çalışmanın Claude Opus gibi modellerdeki tüm aylık bütçenizi yok edebileceği durumlardan bahsediyoruz. Gerçekten duvara toslamış gibi bir durum.

İşte tam burada Burnless sahneye çıkıyor, sanki birkaç satır Python koduyla dünya açlığını çözmüş gibi. Bu bir açık protokol, bir orkestrasyon katmanı ve en önemlisi, o sinir bozucu O(N²) maliyet eğrisini tatlı, tatlı O(N)’e çeviriyor. Matematik sihir değil; sadece zeka. Gerçek dünya API kullanımında 16 kat azalma iddia ediyorlar. Yüzde doksan daha ucuz. Bir düşünün bakalım.

Karesel Kabus

Peki, çok turlu ajan döngüleri için mevcut paradigma ne durumda? Tam bir maliyet felaketi. Her yeni tur, önceki konuşma geçmişinin tamamının yeniden iletilmesini gerektiriyor. Eğer N. tur N token ile orantılı olarak maliyetliyse, N turdaki toplam maliyet Θ(N²)‘ye fırlar. Bu, sadece yeni cümleyi değil, söylediğiniz her kelimeyi ödemeye benziyor. Basit sohbetlerin ötesindeki her şey için tamamen çılgınca.

Burnless: O(N) Can Simidi

Burnless kendini satıcıdan bağımsız bir orkestrasyon katmanı olarak tanımlıyor. Fikir şu: her şeyi koordine etmek için bir “Maestro” model seçiyorsunuz – bu Claude, GPT, Gemini, hatta yerel bir Llama bile olabilir – ve ardından belirli görevler için “İşçiler”iniz oluyor. Bunlar satıcıya özel katmanlar değil, unutmayın. Bunlar kalite/maliyet bantları: gold, silver, bronze. Bunları sahip olduğunuz komut satırı arayüzüne eşliyorsunuz. Daha basit görevlerde sıfır ek maliyetle yerel Ollama modeli mi? Tabii. Sağlayıcıları karıştırıp eşleştirmek mi? Kesinlikle.

Ancak asıl vurucu nokta, bu karesel maliyeti nasıl ortadan kaldırdıkları. Burada iki temel mekanizma devreye giriyor. İlk olarak, Paylaşılan Önek Önbelleği. O devasa sistem prompt’u, potansiyel olarak 20.000’den fazla token, önbelleğe alınıyor. Aynı sağlayıcıyla devam ederseniz, ön ekin aynı olması durumunda oturum ortasında model değiştirmek bunu geçersiz kılmaz. İkinci olarak, Kapsül Geçmişi. Ajanın belleğinde ham transkriptleri depolamak yerine, Maestro modeli yalnızca önceki turların bu küçük, yaklaşık 80 karakterlik sıkıştırılmış “kapsüllerini” tutar. Böylece, karesel geçmiş teriminiz minicik bir lineer terime iner. Dev sistem prompt’u önbellek okuma fiyatlarıyla faturalandırılır. Bu, mantıklı ilerleme yolu.

Sonuç, karesel geçmiş teriminizin minicik bir lineer terime çökmesi, devasa sistem prompt’unun ise önbellek okuma fiyatlarıyla faturalandırılmasıdır (bu, Anthropic’te yeni girdiğe göre kabaca 10 kat daha ucuzdur).

Anthropic SDK’yı kullanan tekrarlanabilir bir kıyaslama bile sağlıyorlar. Claude 3 Opus ile 10 turluk bir oturum için:

  • Tek Başına (önbelleksiz): 4.66 $
  • Tek Başına (önbellekli): 0.65 $
  • Burnless Maestro: 0.45 $ (-%90.3)

Bu matematik, kendi argümanlarına göre, prompt önbellekleme sunan ve girdi başına token ücretlendiren herhangi bir sağlayıcı için geçerli. Evrensel bir probleme evrensel bir çözüm. Ve kurulumu… eh, Pip install ve kurulum. Kolay. Bu sadece bir sarmalayıcı değil; LLM uygulamalarını inşa etme şeklimizde temel bir mimari değişim.

Satıcı Tarafsızlığı Kraldır

Maliyet tasarruflarının ötesindeki güzellik, satıcı tarafsızlığına olan bağlılıktır. config.yaml örneği anlamlı. Mevcut CLI komutlarınızı kelimenin tam anlamıyla bırakabilirsiniz. Daha ucuz görevler için yerel modelleri mi kullanmak istiyorsunuz? Tamam. Ağır işler için belirli bir sağlayıcı mı kullanmak istiyorsunuz? O da tamam. Karıştırıp eşleştirme yeteneği optimizasyon için çok önemli. Geliştiricileri tek bir satıcının ekosistemine kilitlenmekten kurtarıyor. Bu, yapay zeka alanında desteklememiz gereken modülerlik türüdür. Yeniliğe izin veren ve satıcıya bağımlılığı önleyen şey budur.

Bu Yapay Zeka Ajanlarının Geleceği mi?

Bu gerekli bir evrim gibi hissettiriyor. O(N²) maliyet yapısı, birden fazla turda bağlamı koruması gereken herhangi bir ajan için açık bir çıkmazdı. Burnless pratik bir çözüm sunuyor. Mevcut teknolojilere dayanıyor – önbellekleme, özetleme teknikleri – ancak LLM ajan problemine zarifçe uygulanmış. MIT lisansı, herkesin kullanabileceği ve katkıda bulunabileceği açık olmasını sağlıyor. Bu sadece birkaç kuruş tasarruf etmekle ilgili değil; bankayı batırmadan daha karmaşık, daha yetenekli yapay zeka ajanlarının inşa edilmesini sağlamakla ilgili. Araştırma, küçük işletmeler ve bireysel geliştiriciler için sonuçları önemlidir.



🧬 İlgili İçgörüler

Sıkça Sorulan Sorular

Burnless tam olarak ne yapıyor? Burnless, çok turlu LLM ajan konuşmalarını optimize ederek API maliyetlerini büyük ölçüde azaltan açık kaynaklı bir orkestrasyon katmanıdır. Karesel O(N²) maliyetleri, sistem prompt’larını önbelleğe alarak ve konuşma geçmişini sıkıştırarak lineer O(N)’e dönüştürür.

Mevcut LLM API çağrılarımın yerine mi geçecek? Burnless doğrudan LLM API çağrılarınızın yerini almaz; onları yönetir ve optimize eder. Hala seçtiğiniz LLM sağlayıcılarını kullanırsınız, ancak Burnless token kullanımını ve maliyeti en aza indirmek için etkileşimi düzenler.

Burnless’ı kullanmak ücretsiz mi? Burnless yazılımı açık kaynaklıdır ve MIT lisansı altında ücretsiz olarak kullanılabilir. Ancak, Burnless ile kullanmayı seçtiğiniz LLM API sağlayıcılarından kaynaklanan maliyetleriniz devam edecektir, ancak bu maliyetler önemli ölçüde azalır.

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by Dev.to