Developer Tools

AI 비용 절감: Burnless, LLM API 요금 90% '뚝'!

AI 에이전트 개발이라면 누구나 '턴'이 거듭될수록 감당하기 힘든 API 비용 때문에 머리 싸매고 있을 겁니다. 이제 오픈소스 프로젝트 Burnless가 이 비용을 90%까지 '잘라버리겠다'고 나섰습니다.

LLM API 호출 시 O(N^2) 대 O(N) 비용 곡선을 설명하는 다이어그램.

Key Takeaways

  • Burnless는 다중 턴 LLM API 비용을 최대 90%까지 절감하며, 비용 모델을 제곱 O(N²)에서 선형 O(N)으로 변경합니다.
  • 시스템 프롬프트용 공유 접두사 캐시와 이전 턴을 압축하는 '캡슐화된 히스토리'를 통해 이를 달성합니다.
  • 이 프로토콜은 벤더에 구애받지 않아 LLM 제공 업체와 로컬 모델을 자유롭게 혼합하여 사용할 수 있습니다.
  • 10턴 세션 벤치마크에서 Burnless는 Claude 3 Opus의 단순 구현(4.66달러) 대비 0.45달러의 비용을 기록했습니다.

자, 이거 한번 보시죠. 쓸만한 AI 에이전트랍시고 뭔가 만들어 보신 분들은 다들 이 고통을 압니다. 단순히 한 번 묻고 ‘토큰’ 태우는 비용뿐만이 아니에요. 이어지는 대화마다 무한 반복되는 그 끔찍한 비용 말입니다. 이전 대화 전체를 매번 다시 보내는 게 기본 방식이었죠. 이러니 비용이 ‘제곱’으로 늘어나는 건 당연했습니다. 클로드 오푸스 같은 모델로 하루 작업했더니 월 예산을 전부 날려버리는, 그런 사태가 현실이 된 거죠. 정면으로 부딪힌 거대한 벽이었습니다.

이때 Burnless가 등장합니다. 마치 몇 줄짜리 파이썬 코드로 세계 식량난을 해결하고 온 것처럼 말이죠. 이건 그냥 오픈 프로토콜이 아니라, 오케스트레이션 레이어입니다. 결정적으로, 그 빌어먹을 O(N²) 비용 곡선을 달콤한 O(N)으로 바꿔버립니다. 수학이 마법은 아니에요. 그냥 똑똑한 겁니다. 실제 API 사용량을 16배 줄였다고 주장해요. 90% 저렴해진다는 거죠. 한번 음미해 보세요.

제곱의 악몽

그렇다면 기존의 다중 턴 에이전트 루프 패러다임은 뭐였을까요? 그냥 비용 재앙이죠. 새 턴이 올 때마다 이전 대화 기록 전체를 다시 전송해야 합니다. 만약 N번째 턴이 N개의 토큰에 비례하는 비용이라면, N번의 턴 동안의 총비용은 Θ(N²)로 폭증합니다. 마치 새로 말하는 문장만 계산하는 게 아니라, 당신이 지금까지 했던 모든 말을 돈 내고 있는 격이죠. 단순한 잡담 이상에서는 정말 말도 안 되는 방식입니다.

Burnless: O(N) 구원의 손길

Burnless는 스스로를 벤더에 구애받지 않는 오케스트레이션 레이어라고 소개합니다. 아이디어는 간단합니다. ‘마에스트로’ 모델 하나를 고릅니다. 클로드, GPT, 제미나이, 심지어 로컬 라마도 될 수 있죠. 이걸로 모든 걸 조율하고, 특정 작업을 위한 ‘워커’들을 둡니다. 이건 벤더 특정 계층이 아니에요. 품질/비용 밴드, 즉 gold, silver, bronze 같은 겁니다. 이걸 여러분이 가진 커맨드라인 인터페이스에 맞게 매핑하면 됩니다. 간단한 작업에는 비용이 거의 들지 않는 로컬 Ollama 모델을 쓰고요? 물론이죠. 여러 제공 업체를 섞어 써도요? 당연히 가능합니다.

하지만 진정한 핵심은 바로 그 제곱 비용을 어떻게 줄이는가입니다. 두 가지 핵심 메커니즘이 작용합니다. 첫째, 공유 접두사 캐시(Shared Prefix Cache)입니다. 20,000개 토큰이 넘을 수도 있는 거대한 시스템 프롬프트를 캐싱하는 거죠. 같은 제공 업체를 계속 사용하고, 세션 중에 모델을 바꿔도 접두사가 같다면 무효화되지 않습니다. 둘째, 캡슐화된 히스토리(Capsule History)입니다. 에이전트 메모리에 원시 대화 기록을 저장하는 대신, 마에스트로 모델은 이전 턴의 작고, 약 80자 정도의 압축된 ‘캡슐’만 보관합니다. 그러면 2차 히스토리 항이 아주 작은 1차 항으로 줄어드는 거죠. 거대한 시스템 프롬프트는 캐시 읽기 가격으로 청구됩니다. 이게 합리적인 방향입니다.

결과적으로 2차 히스토리 항이 아주 작은 1차 항으로 축소되고, 거대한 시스템 프롬프트는 캐시 읽기 가격으로 청구됩니다 (이는 앤트로픽에서 신규 입력보다 약 10배 저렴합니다).

심지어 앤트로픽 SDK를 사용한 재현 가능한 벤치마크도 제공합니다. 클로드 3 오푸스로 10턴 세션 기준으로 말이죠:

  • 독립 실행형 (캐시 없음): $4.66
  • 독립 실행형 (+ 캐시): $0.65
  • Burnless 마에스트로: $0.45 (-90.3%)

이 수학은 프롬프트 캐싱을 제공하고 입력 토큰당 요금을 부과하는 모든 제공 업체에 적용된다는 것이 그들의 주장입니다. 보편적인 문제에 대한 보편적인 해결책이죠. 그리고 설정은… 뭐, pip install 하고 설정하면 끝입니다. 쉽습니다. 이건 단순한 래퍼가 아니라, LLM 애플리케이션을 구축하는 방식의 근본적인 아키텍처 변화입니다.

벤더 종속성은 이제 그만

여기서 멋진 점은 비용 절감뿐만이 아니라, 벤더 독립성에 대한 헌신입니다. config.yaml 예시만 봐도 알 수 있죠. 기존 CLI 명령어를 그대로 가져다 쓸 수 있습니다. 더 저렴한 작업에는 로컬 모델을 쓰고 싶다고요? 문제없습니다. 무거운 작업은 특정 제공 업체를 쓰고 싶다고요? 그것도 가능합니다. 섞어 쓰는 능력은 최적화를 위해 매우 중요합니다. 개발자들은 단일 벤더 생태계에 묶이지 않아도 됩니다. 이게 바로 AI 분야에서 우리가 지지해야 할 모듈성이죠. 혁신을 가능하게 하고 벤더 종속성을 막는 것입니다.

이게 AI 에이전트의 미래인가?

이건 필요한 진화처럼 보입니다. O(N²) 비용 구조는 여러 턴에 걸쳐 맥락을 유지해야 하는 모든 에이전트에게 명백한 막다른 길이었습니다. Burnless는 실용적인 해결책을 제시합니다. 기존 기술, 즉 캐싱, 요약 기법 등을 기반으로 하지만 LLM 에이전트 문제에 우아하게 적용된 것이죠. MIT 라이선스는 누구나 자유롭게 사용하고 기여할 수 있도록 보장합니다. 이건 단순히 몇 푼 아끼는 문제가 아니라, 은행을 터뜨리지 않고도 더 복잡하고 더 강력한 AI 에이전트를 구축할 수 있게 되는 문제입니다. 연구, 소규모 비즈니스, 개인 개발자에게 미치는 영향은 상당합니다.



🧬 관련 인사이트

자주 묻는 질문

Burnless는 정확히 무엇을 하나요? Burnless는 다중 턴 LLM 에이전트 대화를 최적화하여 API 비용을 대폭 절감하는 오픈소스 오케스트레이션 레이어입니다. 시스템 프롬프트 캐싱과 대화 기록 압축을 통해 제곱 O(N²) 비용을 선형 O(N)으로 변환합니다.

이것이 기존 LLM API 호출을 대체하나요? Burnless는 LLM API 호출을 직접 대체하는 것이 아니라, 이를 관리하고 최적화합니다. 여전히 선택한 LLM 제공 업체를 사용하지만, Burnless가 상호 작용을 조율하여 토큰 사용량과 비용을 최소화합니다.

Burnless는 무료인가요? Burnless 소프트웨어 자체는 MIT 라이선스 하에 무료로 사용할 수 있는 오픈소스입니다. 하지만 Burnless와 함께 사용할 LLM API 제공 업체로부터 발생하는 비용은 여전히 발생하며, 이 비용이 대폭 절감되는 것입니다.

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by Dev.to