2026년 프로덕션 LLM 앱을 위한 프롬프트 캐싱 — 솔직한 비용 절감 플레이북

핵심 요약

프롬프트 캐싱은 이제 Anthropic Claude·OpenAI·Google Gemini 모두에서 1등급 기능이며, 대부분의 소규모 팀이 아직 당기지 않은 가장 큰 비용 절감 레버입니다.
세 벤더는 가격뿐 아니라 멘탈 모델도 다릅니다. Anthropic은 캐시 브레이크포인트를 명시적으로 표시하고 캐시 읽기를 기본 입력가의 0.1배로 청구합니다. OpenAI는 1,024토큰 이상의 프롬프트에 50% 할인을 자동 적용합니다. Google Gemini는 묵시적 자동 캐시와 개발자가 TTL을 제어하는 명시적 캐시를 모두 지원합니다.
효과는 프롬프트가 프리픽스 우선 구조일 때만 보입니다. 시스템 프롬프트 → 고정 few-shot → 레퍼런스 문서 → 누적 히스토리 → 유니크한 유저 질의. 앞 레이어가 바뀌면 그 뒤 전부가 무효화됩니다.
자주 무너지는 지점: TTL보다 긴 간격의 요청, 시스템 프롬프트의 미세한 공백 변화, 그리고 출력 토큰이 큰 워크로드(캐싱은 입력만 도와줍니다).
작은 팀의 올바른 패턴은 “반복으로 이미 돈을 내고 있는 곳을 캐싱”이지 “전부 캐싱”이 아닙니다. 핫 패스 한두 개를 골라 적중률을 측정하고, 그 다음에 확장하세요.

다이어그램 1 — Prompt Caching Production Llm 개념도 — FIG. 1핵심 요약 — 본문 흐름을 한 장으로 본 그림입니다.

왜 2026년의 이야기인가

프롬프트 캐싱 자체는 새롭지 않습니다 — Anthropic은 2024년 말 베타를 출시했고 OpenAI도 곧 따라왔습니다. 2026년에 달라진 건 이 기능이 모든 프런티어 벤더에서 GA 상태가 됐고, 비용 메커니즘이 실제로 계획에 쓸 수 있을 만큼 문서화됐다는 점입니다. 같은 시스템 프롬프트로 수천 건의 요청을 처리하는 고객용 AI 기능이 있다면, 이건 유저 수에 비례해 늘어나는 토큰 비용을 평평하게 만드는 차이입니다.

다이어그램 2 — Prompt Caching Production Llm 개념도 — FIG. 2왜 2026년의 이야기인가 — 본문 흐름을 한 장으로 본 그림입니다.

덜 알려진 두 가지 사실이 이 주장을 구체화합니다. Anthropic에서 캐시 읽기는 기본 입력가의 0.1배로 청구됩니다 — 즉 TTL 동안 후속 호출의 캐시된 부분에 90% 할인입니다. OpenAI에서 1,024토큰 이상 프롬프트의 캐시 적중은 기본 입력가의 50%로 자동 청구됩니다. 미스는 추가 비용이 없고 그냥 평소 입력 요금입니다.

“프롬프트 캐싱”이 실제로 하는 일

세 벤더 모두 같은 모양을 다른 ergonomics로 구현합니다. 모델 서버가 프롬프트의 가장 긴 안정 프리픽스의 지문을 갖고 있다가, 같은 바이트로 시작하는 새 요청이 오면 그 프리픽스에 대한 prefill 작업을 건너뜁니다. 이점은 두 가지 — 캐시된 입력의 토큰당 가격이 낮아지고, prefill이 추론의 느린 부분이므로 첫 토큰까지의 시간(TTFT)도 빨라집니다.

차이는 옵트인 방식, 캐시가 유지되는 시간, 최소 캐시 가능 크기에 있습니다. 그 세 곳이 또한 소규모 팀 구현이 가장 잘 미끄러지는 지점입니다.

2026년 벤더 매트릭스

벤더 — 옵트인 방식 — 캐시 읽기 가격 — 기본 TTL — 최소 캐시 가능 토큰
Anthropic Claude — 명시적 — 프롬프트에 최대 4개의 cache_control 브레이크포인트 표시 — 캐시 읽기는 기본 입력가의 0.1배. 캐시 쓰기는 1.25배(5분 TTL) 또는 2배(1시간 TTL). — 5분 기본; 2배 쓰기 비용으로 1시간 옵션 — Sonnet 4.6 / 4.5는 1,024토큰. Opus 4.x · Haiku 4.5는 4,096토큰
OpenAI — 자동 — 별도 플래그 불필요 — 캐시된 프리픽스에 50% 할인. 미스는 평소 입력가 — 유저가 직접 제어 불가. 모델 서버의 evict 윈도 동안 유지 — 1,024토큰. 매칭은 128토큰 단위로 확장
Google Gemini — 두 가지 모드 — 묵시적(자동, Gemini 2.5+ 기본 ON)과 명시적(개발자 관리) — 할인율은 모델별. 명시적 캐시는 캐시된 바이트에 시간당 저장 요금이 추가됨 — 명시적 캐시 기본 1시간. ttl 또는 expire_time으로 조정 — Gemini 2.5 Flash / 3 Flash는 1,024토큰. Gemini 2.5 Pro / 3 Pro는 4,096토큰

명확하게 짚어둘 두 가지가 있습니다. Anthropic의 5분 TTL은 의도적으로 짧습니다 — 한 시간에 한 번만 도는 기능이 아니라, 활성 대화를 위한 설계입니다. 트래픽이 버스티하다면 1시간 TTL의 2배 쓰기 프리미엄을 내거나, 대부분의 요청에서 캐시 쓰기 가격을 낼 각오를 해야 합니다. 그리고 Google의 명시적 캐시는 캐시 바이트에 시간당 저장 요금을 매깁니다. 트래픽이 희소하면 저장료가 절감보다 커질 수 있으며, 이는 이 매트릭스에서 유일하게 캐싱이 순손실이 되는 자리입니다.

실제로 캐싱되는 프롬프트 구조

세 벤더 모두 프리픽스 기반 캐싱입니다. 즉 프롬프트의 순서는 스타일 선택이 아니라 기능입니다. 프로덕션 트래픽에서 80% 이상 적중률을 일관되게 만드는 패턴은 다음과 같습니다.

시스템 프롬프트와 도구 정의를 가장 먼저. 이건 거의 변하지 않습니다. 시스템 프롬프트와 도구/JSON 스키마 정의를 맨 위 한 블록에 둘 수 있다면, 사실상 작업의 대부분이 끝난 셈입니다.
고정 few-shot 예시를 그 다음. 이걸 A/B 테스트한다면 각 변형을 자신만의 캐시 레인으로 다루세요. 한 템플릿 안에서 섞지 마세요.
레퍼런스 문서(검색·코드 컨텍스트)는 세 번째. 재사용될 때만 캐싱하세요. 긴 문서 Q&A에서 같은 문서가 수십 번 히트되면 캐싱이 맞습니다. 요청마다 다른 문서를 한 번씩만 보는 RAG라면 캐싱할 게 없습니다.
대화 히스토리는 네 번째. 직전 턴까지의 히스토리는 다음 요청에서 캐싱 가능합니다. 현재 유저 턴은 아닙니다.
현재 유저 메시지는 마지막. 이건 늘 유니크합니다. 그 뒤에 두는 것은 동일하더라도 캐시에서 닿을 수 없습니다.

“같은 프롬프트인데 결과가 다른” 버그가 캐싱과 상관관계를 보이는 이유도 같습니다. 끝의 공백 하나, 도구 정의 순서 하나가 프리픽스를 무효화하고 정상가의 prefill을 강제합니다. 시스템 프롬프트는 요청 시점에 합치는 문자열이 아니라 버전 관리되는 아티팩트로 다루세요.

2주짜리 롤아웃 플랜

주차 — 액션 — 금요일까지 보여야 하는 결과
1주 · 월~수 — 핫 패스 하나 선정. 평균 요청 크기, 요청 간 동일한 프롬프트 비율, 그 패스의 현재 입력 토큰 비용을 측정. — 1쪽짜리 베이스라인: 요청당 토큰, 안정 프리픽스 비율, 월간 입력 비용.
1주 · 목~금 — 해당 패스의 프롬프트를 stable-first 순서로 리팩터. Anthropic은 시스템 블록 뒤와 큰 레퍼런스 문서 뒤에 명시적 cache_control 브레이크포인트 추가. OpenAI는 프리픽스가 1,024토큰을 넘는지 확인. Gemini 2.5+는 코드 변경 없이 묵시적 캐시가 활성화됨. — 한두 개 캐시 앵커가 있는 프롬프트 템플릿 + 프리픽스가 바뀌면 실패하는 유닛 테스트 1개.
2주 · 월~수 — 피처 플래그로 출시. Anthropic의 usage.cache_creation_input_tokens·usage.cache_read_input_tokens(또는 OpenAI/Gemini의 동등 필드) 로깅. 라우트별 적중률 계산. — 라우트별 캐시 적중률과 캐시 vs 비캐시 토큰 비율 대시보드.
2주 · 목~금 — 실제 비용을 베이스라인과 비교. 이론 절감이 아니라 관측된 적중률 기준으로 다음 마이그레이션 대상 결정. — 짧은 메모: 어떤 라우트는 캐싱할 가치가 있고 어떤 라우트는 아닌지, 그리고 그 이유.

사전 부검할 만한 실패 모드

희소 트래픽 + 짧은 TTL. 기능이 20분에 한 번 도는데 Anthropic 기본 5분 캐시를 쓰면 모든 호출이 캐시 쓰기입니다. 1시간 캐시로 옮겨 2배 쓰기 프리미엄을 받아들이거나, TTL 안에서 프리픽스를 건드리는 작은 워밍 크론을 두세요.
모르고 들어간 프롬프트 드리프트. 시스템 프롬프트에 현재 날짜를 주입하는 프런트엔드는 무해해 보이지만 매일 자정에 캐시를 무효화합니다. 시간 가변 콘텐츠는 캐싱 프리픽스 바깥으로.
잘못된 걸 캐싱. 캐싱은 입력 측만 도와줍니다. 비용이 출력 토큰에 지배되는 워크로드(긴 생성, 에이전트 트레이스)라면 캐싱이 지연 시간은 줄여도 비용 효과는 작습니다. 축하하기 전에 입출력 비율을 보세요.
조용히 자초한 벤더 락인. 프롬프트 템플릿 안의 벤더 특화 캐시 마커는 추후 마이그레이션을 필요 이상으로 어렵게 만듭니다. 현재 벤더에 맞는 캐시 디렉티브를 주입하는 얇은 어댑터를 두면 프롬프트는 이식 가능하게 유지됩니다.

출처

Anthropic — 프롬프트 캐싱 공식 문서 — 캐시 읽기 0.1배, 캐시 쓰기 1.25배(5분)·2배(1시간) 곱수, 5분·1시간 TTL 옵션, 모델별 최소 캐싱 토큰(Sonnet 4.6/4.5 = 1,024, Opus 4.x·Haiku 4.5 = 4,096)의 근거.
OpenAI — Prompt Caching in the API (발표·문서) — 50% 캐시 입력 할인, 자동 옵트인 동작, 1,024토큰 최소 프리픽스, 128토큰 단위 점진 매칭의 근거.
Google AI — Gemini API context caching — 묵시적/명시적 캐시 모델, 기본 1시간 TTL, 모델별 최소 토큰(Gemini 2.5/3 Flash = 1,024, Gemini 2.5/3 Pro = 4,096)의 근거.
TokenMix — Prompt Caching Guide 2026 — 프리픽스 우선 프롬프트 구조 패턴, “적중률 80% 이상” 가이드, 희소 트래픽에서 Google 명시적 캐시 저장료가 절감을 추월하는 함정의 근거.

2026년 소규모 팀을 위한 스펙 기반 개발(SDD) — 언제 빛나고, 언제 과한가
2026년 소규모 팀을 위한 AI 코딩 도우미 선택 가이드 — Copilot · Cursor · Claude Code

핵심 요약

왜 2026년의 이야기인가

“프롬프트 캐싱”이 실제로 하는 일

2026년 벤더 매트릭스

실제로 캐싱되는 프롬프트 구조

2주짜리 롤아웃 플랜

사전 부검할 만한 실패 모드

출처

관련 글

이 글 다음에 읽으면 좋을 글.

한 주에 한 통, 오래 남는 이해를 보냅니다.

한 주에 한 통,
오래 남는 이해를 보냅니다.