쉬운 설명
LLM은 검색 엔진도 데이터베이스도 아닙니다. '주어진 글 다음에 어떤 글자가 올지'를 예측하는 확률 기계에 가깝습니다. 우리가 쓴 문장을 보고 다음에 올 가능성이 높은 단어들을 골라 이어 붙이면서 답이 만들어집니다. 인터넷의 방대한 글을 학습했기 때문에 결과물이 보통 자연스럽고 그럴듯합니다.
이 단순한 구조가 왜 강력한가는 '규모'에 답이 있습니다. 모델 크기와 학습 데이터 양을 늘릴수록 능력이 단순한 다음 단어 예측을 넘어, 추론·요약·번역·코드 작성 같은 작업까지 한꺼번에 잘하게 된다는 사실이 2020년 이후 분명해졌습니다. ChatGPT·Claude·Gemini가 모두 그 위에서 만들어졌습니다.
동작은 두 단계로 단순화할 수 있습니다. ① 사전 학습: 거대한 글 데이터로 '다음 토큰 예측'만 반복해 일반 언어 감각을 익힘. ② 정렬(alignment): 사람의 피드백(RLHF 등)으로 '도움이 되고 안전한' 답을 더 잘 만들도록 다듬음. 우리가 챗봇으로 만나는 모델은 이 두 단계를 거친 결과입니다.
LLM을 다룰 때 두 가지 단어를 알아 두면 좋습니다. 토큰(글을 잘게 자른 단위, 모델은 토큰을 다룹니다)과 컨텍스트 윈도우(한 번에 볼 수 있는 토큰 수). 우리가 길게 적은 지시·자료·이전 대화는 모두 이 윈도우 안에 들어가야 합니다. 윈도우 밖의 정보는 모델이 알지 못합니다.
한계는 분명합니다. ① 환각(hallucination): 그럴듯하지만 사실이 아닌 내용을 만들기도 합니다. ② 최신 정보 부족: 학습 시점 이후 사건은 모릅니다(RAG·웹 검색이 보완). ③ 출처 추적 어려움: 어디서 배운 정보인지 명확히 가리키기 어렵습니다. 그래서 사실 확인이 중요한 일에는 사람 검토나 출처 인용을 함께 둡니다.

비유로 보면
LLM은 엄청난 양의 글을 읽고 직업적으로 남의 문장을 마저 채워 주는 사람과 비슷합니다. 일의 모양은 몸에 뱄지만, 특정 페이지를 외운 건 아닙니다. 어떤 화제든 그럴듯하게 이어 갈 수 있지만, '정확한 사실'을 보장하지는 않습니다.
어디에서 만나나
대화형 챗봇(ChatGPT·Claude·Gemini), 사내 도우미·검색, 자동 글쓰기·요약·번역, 코딩 도구(GitHub Copilot·Cursor), 고객지원 자동 응대, 데이터 라벨링·분류 보조 — LLM은 이제 사실상 모든 디지털 제품의 옵션 부품이 됐습니다.
작은 예시
ChatGPT에 '회의록을 5줄로 요약해 주세요'를 보내면, 입력된 회의록을 토큰으로 잘라 모델이 읽고, 한 토큰씩 다음 단어를 골라 답이 만들어집니다. 사용자에겐 한 번에 떠오르는 글처럼 보이지만, 내부에서는 매 토큰마다 확률 계산이 진행됩니다.
자주 하는 오해
한 줄 정리
LLM은 '다음 단어를 잘 고르는 기계'입니다. 그 단순한 원리가 거의 모든 글쓰기 일을 새롭게 만들었지만, 사실을 보장하지는 않습니다.
자주 묻는 질문
사실보다 '그럴듯한 문장'을 만드는 쪽으로 최적화돼 있기 때문입니다. 학습 데이터가 얕거나 서로 어긋날 때는, 확률상 가장 자연스러운 문장이 실제와는 다를 수 있습니다.
