쉬운 설명
LLM은 사람처럼 '계속 기억하는' 메모리가 없습니다. 답을 만들 때 보는 모든 정보 — 시스템 지시, 이전 대화, 사용자의 새 질문, 첨부한 문서 — 가 한 번에 모델에 들어가야 하고, 이 '한 번에 들어갈 수 있는 분량'의 한계가 컨텍스트 윈도우입니다.
단위는 토큰입니다. 영어 단어 하나는 보통 1~1.5 토큰, 한국어는 한 글자가 1~2 토큰 정도입니다. 옛 모델은 4천 토큰 정도(짧은 보고서 한 편)였고, 최근 모델은 수십만에서 100만 토큰(책 몇 권 분량)까지 늘었습니다. 윈도우가 클수록 긴 문서를 통째로 넣고 질문할 수 있어 활용 폭이 넓어집니다.
윈도우가 어떻게 쓰이는지 떠올려 보면 이해가 쉽습니다. 챗봇이라면 '시스템 프롬프트(역할 지시) + 지금까지의 대화 + 새 메시지' 전체가 윈도우 안에 들어가야 합니다. 그래서 대화가 길어지면 어느 순간 가장 앞쪽 메시지가 잘려 나가거나, 모델이 그 부분을 '잊은 것처럼' 행동합니다. 회사 문서를 분석시킬 때도 문서 전체가 윈도우 안에 들어가야 하며, 그 한계 안에서 질문을 만들어야 합니다.
윈도우가 크다고 그 안의 모든 정보를 똑같이 잘 쓰는 건 아닙니다. '중간에 있는 정보를 더 자주 놓치는' 현상(lost-in-the-middle)이 보고됩니다. 그래서 매우 중요한 정보는 입력의 맨 앞이나 맨 뒤에 두는 게 권장됩니다. 또 윈도우가 길어질수록 모델 비용·응답 시간이 함께 늘기 때문에, 무조건 다 넣기보다 필요한 부분만 골라 넣는 RAG 같은 접근이 흔히 쓰입니다.
정리하면 컨텍스트 윈도우는 모델의 '단기 작업 기억'입니다. 이 안에 들어간 정보만이 그 답에 영향을 줍니다. 윈도우 밖의 지식 — 모델이 학습 시점에 본 일반 지식 — 은 따로 학습돼 있지만, 가장 최근 사실이나 우리 회사 내부 자료는 윈도우 안에 넣어 줘야 모델이 참고할 수 있습니다.

비유로 보면
컨텍스트 윈도우는 책상 한 장 같습니다. 일을 하려면 필요한 자료를 그 책상 위에 올려놔야 하고, 책상이 작으면 한 번에 올릴 수 있는 양에 한계가 있습니다. 책상이 크면 더 많은 자료를 동시에 펼쳐 놓고 비교할 수 있지만, 무엇을 어디 놓을지 정하는 일이 더 중요해집니다.
어디에서 만나나
긴 문서 요약, 사내 정책 챗봇, 코드베이스 탐색 도우미, 회의록 분석, 책 한 권 단위의 번역·교정처럼 '많은 자료를 동시에 본다'가 필요한 모든 작업에 윈도우 크기가 직접적인 한계가 됩니다. 윈도우가 작으면 RAG로 필요한 조각만 골라 넣고, 윈도우가 크면 통째로 넣는 식으로 도구 선택이 갈립니다.
작은 예시
100쪽짜리 PDF를 ChatGPT에 통째로 붙여 넣고 '핵심 5가지를 요약해 줘'라고 부탁할 수 있는 건, 그 모델의 컨텍스트 윈도우가 그 PDF를 다 담을 만큼 크기 때문입니다. 5년 전 모델이라면 같은 작업이 윈도우 초과로 잘리거나 여러 조각으로 나눠 처리해야 했습니다.
자주 하는 오해
한 줄 정리
컨텍스트 윈도우는 모델의 책상입니다. 책상이 크다고 일이 저절로 잘되지는 않습니다. 무엇을 올릴지, 어디에 둘지가 늘 중요한 결정입니다.
