Şöyle bir durum var. Ne işe yarar bir yapay zeka ajanı geliştirmeye kalkan herkes bu acıyı bilir. Tek bir sorguda harcanan token’lar değil sadece sorun; her bir sonraki turun getirdiği sonsuz, tekrarlayan maliyet. Düşünce basitti: her seferinde tüm konuşmayı baştan oynat. Bu da doğal olarak karesel maliyetlere yol açtı. API faturanız, dostlar, kontrolden çıkıyordu. Bir günlük çalışmanın Claude Opus gibi modellerdeki tüm aylık bütçenizi yok edebileceği durumlardan bahsediyoruz. Gerçekten duvara toslamış gibi bir durum.
İşte tam burada Burnless sahneye çıkıyor, sanki birkaç satır Python koduyla dünya açlığını çözmüş gibi. Bu bir açık protokol, bir orkestrasyon katmanı ve en önemlisi, o sinir bozucu O(N²) maliyet eğrisini tatlı, tatlı O(N)’e çeviriyor. Matematik sihir değil; sadece zeka. Gerçek dünya API kullanımında 16 kat azalma iddia ediyorlar. Yüzde doksan daha ucuz. Bir düşünün bakalım.
Karesel Kabus
Peki, çok turlu ajan döngüleri için mevcut paradigma ne durumda? Tam bir maliyet felaketi. Her yeni tur, önceki konuşma geçmişinin tamamının yeniden iletilmesini gerektiriyor. Eğer N. tur N token ile orantılı olarak maliyetliyse, N turdaki toplam maliyet Θ(N²)‘ye fırlar. Bu, sadece yeni cümleyi değil, söylediğiniz her kelimeyi ödemeye benziyor. Basit sohbetlerin ötesindeki her şey için tamamen çılgınca.
Burnless: O(N) Can Simidi
Burnless kendini satıcıdan bağımsız bir orkestrasyon katmanı olarak tanımlıyor. Fikir şu: her şeyi koordine etmek için bir “Maestro” model seçiyorsunuz – bu Claude, GPT, Gemini, hatta yerel bir Llama bile olabilir – ve ardından belirli görevler için “İşçiler”iniz oluyor. Bunlar satıcıya özel katmanlar değil, unutmayın. Bunlar kalite/maliyet bantları: gold, silver, bronze. Bunları sahip olduğunuz komut satırı arayüzüne eşliyorsunuz. Daha basit görevlerde sıfır ek maliyetle yerel Ollama modeli mi? Tabii. Sağlayıcıları karıştırıp eşleştirmek mi? Kesinlikle.
Ancak asıl vurucu nokta, bu karesel maliyeti nasıl ortadan kaldırdıkları. Burada iki temel mekanizma devreye giriyor. İlk olarak, Paylaşılan Önek Önbelleği. O devasa sistem prompt’u, potansiyel olarak 20.000’den fazla token, önbelleğe alınıyor. Aynı sağlayıcıyla devam ederseniz, ön ekin aynı olması durumunda oturum ortasında model değiştirmek bunu geçersiz kılmaz. İkinci olarak, Kapsül Geçmişi. Ajanın belleğinde ham transkriptleri depolamak yerine, Maestro modeli yalnızca önceki turların bu küçük, yaklaşık 80 karakterlik sıkıştırılmış “kapsüllerini” tutar. Böylece, karesel geçmiş teriminiz minicik bir lineer terime iner. Dev sistem prompt’u önbellek okuma fiyatlarıyla faturalandırılır. Bu, mantıklı ilerleme yolu.
Sonuç, karesel geçmiş teriminizin minicik bir lineer terime çökmesi, devasa sistem prompt’unun ise önbellek okuma fiyatlarıyla faturalandırılmasıdır (bu, Anthropic’te yeni girdiğe göre kabaca 10 kat daha ucuzdur).
Anthropic SDK’yı kullanan tekrarlanabilir bir kıyaslama bile sağlıyorlar. Claude 3 Opus ile 10 turluk bir oturum için:
- Tek Başına (önbelleksiz): 4.66 $
- Tek Başına (önbellekli): 0.65 $
- Burnless Maestro: 0.45 $ (-%90.3)
Bu matematik, kendi argümanlarına göre, prompt önbellekleme sunan ve girdi başına token ücretlendiren herhangi bir sağlayıcı için geçerli. Evrensel bir probleme evrensel bir çözüm. Ve kurulumu… eh, Pip install ve kurulum. Kolay. Bu sadece bir sarmalayıcı değil; LLM uygulamalarını inşa etme şeklimizde temel bir mimari değişim.
Satıcı Tarafsızlığı Kraldır
Maliyet tasarruflarının ötesindeki güzellik, satıcı tarafsızlığına olan bağlılıktır. config.yaml örneği anlamlı. Mevcut CLI komutlarınızı kelimenin tam anlamıyla bırakabilirsiniz. Daha ucuz görevler için yerel modelleri mi kullanmak istiyorsunuz? Tamam. Ağır işler için belirli bir sağlayıcı mı kullanmak istiyorsunuz? O da tamam. Karıştırıp eşleştirme yeteneği optimizasyon için çok önemli. Geliştiricileri tek bir satıcının ekosistemine kilitlenmekten kurtarıyor. Bu, yapay zeka alanında desteklememiz gereken modülerlik türüdür. Yeniliğe izin veren ve satıcıya bağımlılığı önleyen şey budur.
Bu Yapay Zeka Ajanlarının Geleceği mi?
Bu gerekli bir evrim gibi hissettiriyor. O(N²) maliyet yapısı, birden fazla turda bağlamı koruması gereken herhangi bir ajan için açık bir çıkmazdı. Burnless pratik bir çözüm sunuyor. Mevcut teknolojilere dayanıyor – önbellekleme, özetleme teknikleri – ancak LLM ajan problemine zarifçe uygulanmış. MIT lisansı, herkesin kullanabileceği ve katkıda bulunabileceği açık olmasını sağlıyor. Bu sadece birkaç kuruş tasarruf etmekle ilgili değil; bankayı batırmadan daha karmaşık, daha yetenekli yapay zeka ajanlarının inşa edilmesini sağlamakla ilgili. Araştırma, küçük işletmeler ve bireysel geliştiriciler için sonuçları önemlidir.
🧬 İlgili İçgörüler
- Daha Fazla Oku: Bu Geliştirici Yapay Zeka Yöneticisine Tek Bir Beyin Verdi: Telegram, WhatsApp, Web ve Aramalar Boyunca
- Daha Fazla Oku: Açık Kaynak İş Modelleri: Şirketler Ücretsiz Yazılımdan Nasıl Para Kazanıyor
Sıkça Sorulan Sorular
Burnless tam olarak ne yapıyor? Burnless, çok turlu LLM ajan konuşmalarını optimize ederek API maliyetlerini büyük ölçüde azaltan açık kaynaklı bir orkestrasyon katmanıdır. Karesel O(N²) maliyetleri, sistem prompt’larını önbelleğe alarak ve konuşma geçmişini sıkıştırarak lineer O(N)’e dönüştürür.
Mevcut LLM API çağrılarımın yerine mi geçecek? Burnless doğrudan LLM API çağrılarınızın yerini almaz; onları yönetir ve optimize eder. Hala seçtiğiniz LLM sağlayıcılarını kullanırsınız, ancak Burnless token kullanımını ve maliyeti en aza indirmek için etkileşimi düzenler.
Burnless’ı kullanmak ücretsiz mi? Burnless yazılımı açık kaynaklıdır ve MIT lisansı altında ücretsiz olarak kullanılabilir. Ancak, Burnless ile kullanmayı seçtiğiniz LLM API sağlayıcılarından kaynaklanan maliyetleriniz devam edecektir, ancak bu maliyetler önemli ölçüde azalır.