Developer Tools

AI-расходы под нож: Burnless урезает счета за LLM API на 90%

Любой, кто строит AI-агентов, знает о чудовищных расходах на многоходовые диалоги. Теперь новый open-source проект обещает урезать эти счета на 90%.

Диаграмма, иллюстрирующая кривые затрат O(N^2) против O(N) для вызовов LLM API.

Key Takeaways

  • Burnless снижает расходы на многоходовые LLM API до 90%, меняя модель затрат с квадратичной O(N²) на линейную O(N).
  • Это достигается за счет общего кеша префикса для системных промптов и "капсулированной истории", которая сжимает предыдущие ходы.
  • Протокол вендор-независим, позволяя пользователям смешивать и сопоставлять LLM-провайдеров и локальные модели.
  • Бенчмарк 10-ходовой сессии показывает, что Burnless стоит $0.45 по сравнению с $4.66 для наивной реализации с Claude 3 Opus.

Вот в чем загвоздка. Каждый, кто занимается разработкой чего-либо, отдаленно напоминающего полезного AI-агента, знает эту боль. Дело не только в токенах, которые вы сжигаете на один запрос; это бесконечная, рекурсивная стоимость каждого последующего шага. Логика была проста: проигрывать весь чертов диалог каждый раз. Это естественным образом приводило к квадратичным издержкам. Ваш API-счет, друзья мои, выходил из-под контроля. Мы говорим о ситуации, когда один день работы мог уничтожить весь ваш месячный бюджет на такие модели, как Claude Opus. Реальная стена, ударившая со всей силы.

Именно тут на сцену выходит Burnless, будто только что решил проблему голода во всем мире парой строк на Python. Это открытый протокол, слой оркестрации, и, что крайне важно, он переворачивает эту уродливую кривую затрат O(N²) в сладкую, приятную O(N). Математика здесь не магия; это просто умный подход. Они заявляют о 16-кратном сокращении реального потребления API. На девяносто процентов дешевле. Осознайте это.

Квадратичный кошмар

Итак, существующая парадигма для многоходовых циклов агентов? Это катастрофа с точки зрения затрат. Каждый новый ход означает повторную передачу всей предыдущей истории диалога. Если ход N стоит пропорционально N токенам, то общая стоимость за N ходов раздувается до Θ(N²). Это похоже на оплату каждого произнесенного вами слова, а не только нового предложения. Абсолютно безумно для чего-либо, кроме тривиального чата.

Burnless: спасительная O(N) линия

Burnless позиционирует себя как вендор-независимый слой оркестрации. Идея в том, что вы выбираете модель “Maestro” – это может быть Claude, GPT, Gemini, даже локальный Llama – для оркестрации всего, а затем у вас есть “Workers” для конкретных задач. Это не вендор-специфичные уровни, заметьте. Это категории качества/стоимости: gold, silver, bronze. Вы сопоставляете их с любым интерфейсом командной строки, который у вас есть. Локальная модель Ollama с нулевой предельной стоимостью для более простых задач? Пожалуйста. Смешивание и сопоставление провайдеров? Абсолютно.

Но настоящая изюминка в том, как они сворачивают эти квадратичные затраты. Здесь действуют два ключевых механизма. Во-первых, Shared Prefix Cache (Общий кеш префикса). Этот массивный системный промпт, потенциально более 20 000 токенов, кешируется. Если вы остаетесь с тем же провайдером, смена модели в середине сессии не аннулирует его, если префикс идентичен. Во-вторых, Capsule History (Капсулированная история). Вместо хранения необработанных транскриптов в памяти агента, модель Maestro сохраняет только эти крошечные, сжатые “капсулы” (~80 символов) предыдущих ходов. Таким образом, ваш квадратичный член истории сжимается до крошечного линейного. Массивный системный промпт оплачивается по цене чтения из кеша. Это разумный путь вперед.

Результат в том, что ваш квадратичный член истории схлопывается до крошечного линейного, в то время как массивный системный промпт оплачивается по цене чтения из кеша (что примерно в 10 раз дешевле, чем свежий ввод у Anthropic).

Они даже предоставляют воспроизводимый бенчмарк с использованием SDK Anthropic. Для 10-ходовой сессии с Claude 3 Opus:

  • Автономно (без кеша): $4.66
  • Автономно (+ кеш): $0.65
  • Burnless Maestro: $0.45 (-90.3%)

Эта математика, утверждают они, применима к любому провайдеру, который предлагает кеширование промптов и взимает плату за входной токен. Это универсальное решение универсальной проблемы. И настройка… ну, Pip install и настройка. Легко. Это не просто обертка; это фундаментальное архитектурное изменение в том, как мы строим LLM-приложения.

Вендор-агностицизм — король

Прелесть здесь, помимо экономии средств, заключается в приверженности вендор-независимости. Пример config.yaml показателен. Вы можете буквально вставлять свои существующие CLI-команды. Хотите использовать локальные модели для более дешевых задач? Готово. Хотите использовать конкретного провайдера для тяжелой работы? Тоже готово. Возможность смешивать и сопоставлять имеет решающее значение для оптимизации. Это освобождает разработчиков от привязки к экосистеме одного провайдера. Это та модульность, которую мы должны продвигать в пространстве ИИ. Именно она позволяет внедрять инновации и предотвращает привязку к вендору.

Это будущее AI-агентов?

Похоже, это необходимое развитие. Структура затрат O(N²) была явным тупиком для любого агента, которому нужно поддерживать контекст на протяжении нескольких ходов. Burnless предлагает прагматичное решение. Он построен на существующей технологии – кешировании, методах суммаризации – но элегантно применен к проблеме LLM-агентов. MIT-лицензия гарантирует, что он открыт для использования и внесения вклада каждым. Это не просто экономия нескольких долларов; это создание более сложных, более мощных AI-агентов без разорения. Последствия для исследований, для малого бизнеса и для индивидуальных разработчиков значительны.



🧬 Связанные материалы

Часто задаваемые вопросы

Что на самом деле делает Burnless? Burnless — это открытый слой оркестрации, который оптимизирует многоходовые диалоги LLM-агентов, чтобы кардинально снизить API-расходы. Он трансформирует квадратичные затраты O(N²) в линейные O(N) за счет кеширования системных промптов и сжатия истории диалога.

Заменит ли это мои текущие вызовы LLM API? Burnless не заменяет ваши вызовы LLM API напрямую; он управляет ими и оптимизирует их. Вы по-прежнему используете выбранных LLM-провайдеров, но Burnless оркестрирует взаимодействие, чтобы минимизировать использование токенов и затраты.

Является ли Burnless бесплатным для использования? Само программное обеспечение Burnless является open-source и бесплатно для использования под лицензией MIT. Однако вы по-прежнему будете нести расходы от LLM-провайдеров, которых вы выберете для использования с Burnless, хотя эти расходы значительно снижены.

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by Dev.to