쉬운 설명
그 전의 언어 모델(RNN·LSTM)은 단어를 한 번에 하나씩 순서대로 처리했습니다. 긴 문장에서 앞쪽 단어를 끝까지 기억하기 어려웠고, 학습도 느렸습니다. 2017년 구글이 발표한 트랜스포머는 '모든 단어가 동시에 서로를 본다'는 어텐션 구조로 이 문제를 풀었습니다. 단순한 발상이었지만 효과가 엄청났습니다.
구조의 핵심 부품은 두 가지입니다. 셀프 어텐션(같은 문장 안 단어들 사이 관계를 계산)과 그 위에 쌓이는 작은 신경망(피드포워드). 이 두 가지를 한 묶음으로 보고, 묶음을 수십~수백 번 쌓아 올린 것이 오늘날의 트랜스포머입니다. 입력은 토큰열이고, 출력은 그 위에서의 다음 토큰 예측 또는 임베딩입니다.
왜 트랜스포머가 표준이 됐는가의 답은 두 가지에 있습니다. ① 병렬화: 어텐션은 단어들을 동시에 처리할 수 있어 GPU를 효율적으로 씁니다. 같은 시간에 훨씬 큰 모델을 학습할 수 있게 됐습니다. ② 스케일링: 데이터와 모델 크기를 늘릴수록 성능이 꾸준히 좋아지는 경향이 다른 구조보다 뚜렷합니다. 그래서 '큰 모델 + 큰 데이터' 시대를 만들었습니다.
트랜스포머가 가져온 더 큰 변화는 '범용 아키텍처가 됐다'는 점입니다. 처음엔 번역용으로 등장했지만, BERT가 글의 의미를 이해하는 데, GPT가 글을 만드는 데, 비전 트랜스포머(ViT)가 이미지에, Whisper가 음성에, AlphaFold가 단백질 구조에, RT-2가 로봇 제어에까지 같은 구조를 응용했습니다. 한 구조로 여러 영역을 푸는 흐름이 굳어졌습니다.
한계도 있습니다. ① 길이가 두 배 늘면 어텐션 계산량은 네 배가 늘어 매우 긴 문맥에서는 비싸집니다. ② 학습에 막대한 자원이 듭니다. ③ 같은 단어 패턴을 외울 뿐 진짜 추론을 하는지에 대한 논의가 계속됩니다. 이런 한계를 줄이려는 변형들(FlashAttention, 효율적 어텐션, Mixture-of-Experts 등)이 활발히 연구되고 있습니다.

비유로 보면
트랜스포머는 회의실에 모인 30명이 같은 문장을 함께 읽고, 매번 '누가 누구의 의견을 얼마나 들을지'를 즉석에서 정하는 모습과 비슷합니다. 한 사람씩 차례로 말하는 옛 방식(RNN)보다 훨씬 빠르고, 멀리 떨어진 두 사람의 의견도 한 번에 연결할 수 있습니다.
어디에서 만나나
ChatGPT·Claude·Gemini 같은 LLM, 비전 트랜스포머 기반의 이미지 인식·생성, Whisper 음성 인식, 단백질 구조 예측(AlphaFold), 음악 생성, 로봇 제어, 코드 모델(Copilot·Cursor) — 현대 AI가 다루는 거의 모든 데이터 종류에 트랜스포머 변형이 들어가 있습니다.
작은 예시
ChatGPT가 긴 질문을 받고 그 안의 '그것', '거기서'가 무엇을 가리키는지 정확히 짚어 답하는 능력은, 트랜스포머의 어텐션이 단어들 사이 관계를 한 번에 보게 해 주기 때문에 가능합니다. 같은 일을 옛 RNN으로 하면 긴 문장에서 앞부분 정보가 자주 흐려졌습니다.
자주 하는 오해
한 줄 정리
트랜스포머 한 줄 요약: '모든 단어가 동시에 서로를 본다.' 이 단순한 발상이 지난 10년의 AI를 거의 다 만들었습니다.
