강화학습 — LumoMate 용어집

쉬운 설명

지도 학습은 '정답이 붙은 예시'를 보고 따라 합니다. 강화 학습은 정답이 없습니다. 대신 에이전트가 행동을 하면 환경이 점수(보상)를 돌려주고, 에이전트는 그 점수를 늘리는 방향으로 다음 행동을 조금씩 바꿔 갑니다. 시행착오로 배우는 학습입니다.

왜 RL이 필요한가 하면, 어떤 일은 '정답'을 미리 적기 어렵기 때문입니다. 게임의 좋은 수, 로봇의 좋은 동작, 추천의 좋은 정렬은 한 가지 정답이 없습니다. 행동 → 결과 → 보상의 순환만 있으면, RL은 좋은 행동 패턴을 스스로 찾아낼 수 있습니다.

구조는 네 가지 요소로 단순화할 수 있습니다. ① 에이전트(행동을 선택), ② 환경(상태를 보여 주고 보상을 돌려줌), ③ 정책(상태에서 행동을 정하는 규칙), ④ 보상 함수(무엇을 좋은 결과로 정의할지). 학습은 정책이 더 큰 누적 보상을 받도록 조금씩 갱신되는 일을 반복합니다.

성공 사례는 화려합니다. 알파고가 자기 자신과 수백만 판을 두며 사람보다 잘 두게 된 일, 알파스타가 스타크래프트에서 프로 게이머를 이긴 일, 로봇팔이 시행착오로 정교한 조립을 배우는 일까지 모두 RL의 결과입니다. 게임뿐 아니라 데이터센터 냉방 최적화·광고 입찰·물류 경로 결정 같은 산업 응용도 늘고 있습니다.

LLM 시대에 RL이 새롭게 주목받은 이유가 있습니다. ChatGPT·Claude의 '사람이 좋아하는 응답' 학습 과정인 RLHF(Reinforcement Learning from Human Feedback)는 사람 피드백을 보상 신호로 삼아 모델을 다듬는 RL 응용입니다. 즉 RL은 게임 안에서만 사는 기술이 아니라, LLM의 '품질 조정 단계'에 직접 들어가 있습니다. 다만 RL은 보상 설계가 어렵고 학습이 불안정한 편이라, 실무 도입 시점에 다른 방법(지도 학습·시뮬레이션)과 비교해 신중하게 고릅니다.

강화학습의 개념을 본문 안에서 다른 각도로 비춰 보는 편집형 일러스트. — FIG. 1강화학습을 다른 각도에서 다시 봅니다.

비유로 보면

강화 학습은 강아지에게 새 행동을 가르치는 일과 비슷합니다. 정답을 적어 줄 수는 없지만, 잘하면 간식, 잘못하면 무반응을 반복하다 보면 강아지는 어떤 행동이 간식을 부르는지 알아챕니다. 간식의 종류(보상 함수)를 어떻게 정하느냐에 따라 강아지가 익히는 행동이 달라집니다.

어디에서 만나나

게임 AI(보드게임·실시간 전략), 로봇팔·로봇 보행, 자율주행의 일부 모듈, 광고·추천의 순위 결정, 데이터센터 자원 최적화, 그리고 최근에는 LLM의 사람 피드백 정렬(RLHF). 보상을 정의할 수 있는 거의 모든 의사결정 문제에 RL이 시도되고 있습니다.

작은 예시

알파고가 자기 자신과 바둑을 끝없이 두며 이기는 수를 배웠던 일, 그리고 오늘날 LLM이 '사람이 더 도움이 된다고 표시한 답변'을 더 자주 만들도록 다듬어지는 일, 이 둘은 강화 학습의 대표 사례입니다.

자주 하는 오해

오해

가장 큰 오해는 'RL = 만능 알고리즘'이라고 받아들이는 것입니다. 보상이 잘 정의된 시뮬레이션 환경에서는 강하지만, 보상이 모호하거나 환경이 자주 바뀌는 현실에선 학습이 불안정합니다. 또 'RL이 곧 자율 의식'이라는 상상도 과장입니다. 누적 보상 최대화라는 수학적 목표 위에서 움직일 뿐입니다.

한 줄 정리

RL에서 가장 중요한 건 '보상 정의'입니다. 보상을 잘못 정하면 모델이 우리가 원치 않은 지름길을 찾아내고, 잘 정하면 사람도 못 보던 좋은 행동을 발견합니다.

자주 묻는 질문

강화 학습은 지도 학습과 어떻게 다른가요?
지도 학습은 정답이 붙은 예시를 보고 그대로 따라 합니다. 강화 학습에는 정답이 없습니다. 대신 에이전트가 행동하면 환경이 점수를 돌려주고, 에이전트는 그 점수를 높이는 쪽으로 다음 행동을 조금씩 바꿔 갑니다. 그래서 게임의 좋은 수나 로봇의 좋은 동작처럼 따라 할 단 하나의 정답이 없고 결과의 좋고 나쁨만 있는 문제에 잘 맞습니다.

RLHF는 강화 학습과 무슨 관계가 있나요?
RLHF(사람 피드백 기반 강화 학습)는 ChatGPT나 Claude 같은 모델을 사람이 더 선호하는 응답 쪽으로 다듬는 단계입니다. 사람의 선호를 보상 신호로 삼아 강화 학습으로 모델을 조정합니다. 즉 RL은 게임과 로봇에만 갇힌 기술이 아니라, 현대 언어 모델의 품질 조정 단계에 직접 들어가 있습니다.

보상 함수가 왜 그렇게 중요한가요?
보상 함수는 무엇을 좋은 결과로 볼지를 정하고, 에이전트는 우리가 의도한 것이 아니라 우리가 보상한 것을 그대로 최적화합니다. 보상을 잘못 정하면 모델이 원치 않은 지름길을 찾아내고, 잘 정하면 사람도 못 보던 좋은 행동을 발견합니다. 보상 설계가 어렵고 학습이 불안정한 편이라, 실무에서는 지도 학습이나 시뮬레이션 같은 더 단순한 선택지와 신중히 비교한 뒤 도입합니다.