쉬운 설명
지도 학습은 '정답이 붙은 예시'를 보고 따라 합니다. 강화 학습은 정답이 없습니다. 대신 에이전트가 행동을 하면 환경이 점수(보상)를 돌려주고, 에이전트는 그 점수를 늘리는 방향으로 다음 행동을 조금씩 바꿔 갑니다. 시행착오로 배우는 학습입니다.
왜 RL이 필요한가 하면, 어떤 일은 '정답'을 미리 적기 어렵기 때문입니다. 게임의 좋은 수, 로봇의 좋은 동작, 추천의 좋은 정렬은 한 가지 정답이 없습니다. 행동 → 결과 → 보상의 순환만 있으면, RL은 좋은 행동 패턴을 스스로 찾아낼 수 있습니다.
구조는 네 가지 요소로 단순화할 수 있습니다. ① 에이전트(행동을 선택), ② 환경(상태를 보여 주고 보상을 돌려줌), ③ 정책(상태에서 행동을 정하는 규칙), ④ 보상 함수(무엇을 좋은 결과로 정의할지). 학습은 정책이 더 큰 누적 보상을 받도록 조금씩 갱신되는 일을 반복합니다.
성공 사례는 화려합니다. 알파고가 자기 자신과 수백만 판을 두며 사람보다 잘 두게 된 일, 알파스타가 스타크래프트에서 프로 게이머를 이긴 일, 로봇팔이 시행착오로 정교한 조립을 배우는 일 — 모두 RL의 결과입니다. 게임뿐 아니라 데이터센터 냉방 최적화·광고 입찰·물류 경로 결정 같은 산업 응용도 늘고 있습니다.
LLM 시대에 RL이 새롭게 주목받은 이유가 있습니다. ChatGPT·Claude의 '사람이 좋아하는 응답' 학습 과정인 RLHF(Reinforcement Learning from Human Feedback)는 사람 피드백을 보상 신호로 삼아 모델을 다듬는 RL 응용입니다. 즉 RL은 게임 안에서만 사는 기술이 아니라, LLM의 '품질 조정 단계'에 직접 들어가 있습니다. 다만 RL은 보상 설계가 어렵고 학습이 불안정한 편이라, 실무 도입 시점에 다른 방법(지도 학습·시뮬레이션)과 비교해 신중하게 고릅니다.

비유로 보면
강화 학습은 강아지에게 새 행동을 가르치는 일과 비슷합니다. 정답을 적어 줄 수는 없지만, 잘하면 간식, 잘못하면 무반응을 반복하다 보면 강아지는 어떤 행동이 간식을 부르는지 알아챕니다. 간식의 종류(보상 함수)를 어떻게 정하느냐에 따라 강아지가 익히는 행동이 달라집니다.
어디에서 만나나
게임 AI(보드게임·실시간 전략), 로봇팔·로봇 보행, 자율주행의 일부 모듈, 광고·추천의 순위 결정, 데이터센터 자원 최적화, 그리고 최근에는 LLM의 사람 피드백 정렬(RLHF). 보상을 정의할 수 있는 거의 모든 의사결정 문제에 RL이 시도되고 있습니다.
작은 예시
알파고가 자기 자신과 바둑을 끝없이 두며 이기는 수를 배웠던 일, 그리고 오늘날 LLM이 '사람이 더 도움이 된다고 표시한 답변'을 더 자주 만들도록 다듬어지는 일 — 둘 다 강화 학습의 대표 사례입니다.
자주 하는 오해
한 줄 정리
RL의 핵심은 '보상 정의'입니다. 보상을 잘못 정하면 모델이 우리가 원치 않은 지름길을 찾아내고, 잘 정하면 사람도 못 보던 좋은 행동을 발견합니다.
