
요즘 AI API나 에이전트 툴 이야기를 보다 보면 프롬프트 캐싱(prompt caching)이라는 단어가 꽤 자주 보입니다. 아직 한국어로는 깊게 정리된 글이 많지 않아서, 처음 보는 사람 입장에서는 조금 낯설 수 있습니다.
하지만 개념 자체는 생각보다 어렵지 않습니다. 아주 단순하게 말하면, 항상 반복되는 프롬프트 앞부분을 매번 처음부터 다시 계산하지 않게 도와주는 방식에 가깝습니다.

프롬프트 캐싱은 쉽게 말하면 무엇인가
예를 들어 AI 앱에는 자주 변하지 않는 내용이 많습니다. 시스템 프롬프트, 회사 규칙, 도구 설명, 긴 템플릿 같은 것들입니다.
- 항상 같은 안내문이 앞에 붙고
- 사용자 질문만 뒤에서 바뀌는 식이죠
프롬프트 캐싱은 이런 반복되는 공통 앞부분을 다시 활용해서, 같은 계산을 덜 하게 만드는 발상에 가깝습니다. 출력 결과를 통째로 저장하는 일반 캐시와는 조금 다릅니다.
왜 비용 절감 이야기와 같이 나올까
AI API 비용은 보통 입력 토큰과 출력 토큰에 연결됩니다. 그런데 앱을 운영해 보면, 매 요청마다 사용자 질문보다 앞에 붙는 긴 공통 문맥이 더 무거운 경우가 많습니다.
- 긴 시스템 프롬프트
- 툴 정의 JSON
- 회사 문체 가이드
- 반복되는 워크플로 설명
이걸 매번 새로 계산하면 비용도 늘고 첫 응답까지 걸리는 시간도 길어집니다. 그래서 OpenAI, Anthropic, Google 같은 쪽에서 프롬프트 캐싱이 계속 같이 언급되는 겁니다.

어떻게 써야 효과가 커질까
핵심은 구조입니다. 일반적으로는 정적인 내용은 앞에, 자주 바뀌는 내용은 뒤에 두는 쪽이 유리합니다.
- 시스템 규칙, 역할 설명, 도구 스키마는 앞쪽
- 사용자 질문, 이번 요청의 변수값은 뒤쪽
이렇게 해두면 앞부분이 더 자주 같게 유지돼서 캐시 적중 가능성이 높아집니다. 반대로 앞부분을 자주 흔들면 캐싱 효과가 크게 줄어듭니다.
어디에서 특히 체감이 클까
프롬프트 캐싱은 특히 에이전트형 앱, 코딩 도구, 긴 문서 기반 업무 자동화에서 체감이 큰 편입니다. 공통 규칙과 도구 설명이 길어지기 쉽기 때문입니다.
즉 프롬프트 캐싱은 그냥 API 옵션 하나의 문제가 아니라, 앞으로 AI 앱을 어떻게 설계하느냐와 연결되는 기본기처럼 보입니다.
- 프롬프트 캐싱은 반복되는 프롬프트 앞부분을 재사용해 비용과 지연 시간을 줄이는 방식입니다.
- 정적인 내용은 앞에, 매번 바뀌는 내용은 뒤에 두는 구조가 보통 더 유리합니다.
- 에이전트, 코파일럿, 긴 업무 자동화처럼 공통 문맥이 긴 앱일수록 체감이 커집니다.
