연구실에서 인공지능 관련 스터디를 두번이나 했고, 논문 이래저래 읽으면서도 강화학습 공부는 진짜 계속 회피했다.
왜냐하면 저 개념 자체가 하나도 와닿지 않기 때문에 ~
강화학습하면 늘 드는 비유가 게임인데,
로봇(혹은 캐릭터)가 잘하면 보상을 주고, 아니면 패널티를 주는 식으로
강아지 훈련시키듯이 하는거래서 진짜 한개도 와닿지가 않았음. 이게 되는 기계학습인가?
그치만 인턴 초기에 실장님께서 deepseek를 원하셨고, GRPO를 사용하고자 ,, 공부를 시작했다.
📌 1. 강화학습이란?
짧게 말하면,
“특정 상태(state)에서 어떤 행동(action)을 취할 때 가장 높은 보상을 받도록 학습하는 알고리즘”이다.이 개념은 심리학의 보상 학습 이론과 **최적화 수학(벨만 방정식)**이 만난 형태다.
- 보상학습: 잘하면 간식, 못하면 벌
- 벨만 방정식: 현재 상태에서의 가치(value)를 미래 보상까지 고려해 재귀적으로 계산하는 수식
→ 강화학습은 결국 “보상을 최대화하는 행동 정책(policy)을 학습”하는 것이다.
📌 2. 구성요소 — 나는 LLM 기반 agent로 예시를 들겠다
| 구성 | 요소 | 정의 (LLM agent 예시) |
| Agent | 행동 주체 | LLM 모델 (예: Assistant) |
| Environment | 상호작용 대상 | 유저 prompt, API 응답, feedback 등 |
| State (S) | 현재 상황 | 예: 대화 이력, 목적 추론 결과 등 |
| Action (A) | 에이전트의 선택 | 예: 어떤 함수 호출할지, 어떤 응답을 생성할지 |
| Reward (R) | 피드백, 점수 | 예: 목적에 부합하는 응답을 생성했는가? |
| Policy (π) | 행동 전략 | 모델의 의사결정 기준 (함수 선택, 응답 방식 등) |
📌 3. 나는 어떤 부분이 제일 어려웠냐면
보상을 준다!라고 하는게 진짜 너무 개소리 같았다.
근데 보상이라는게 그 동물과 로봇에 자꾸 비유를 줘서 내가 헷갈린거지,
실제로 정의한 보상(출력언어라던가, 포멧이라던가)을 바탕으로 점수 기반으로 진짜로 보상을 줄 수 있다.
KTO는 -1 또는 1로, GRPO는 0~1 사이 값을 보상으로 산출해서
목적함수!에 실제로 값을 주는거임.
📌 4. 마치며
강화학습은 뭔가 대단해 보이지만,
실제로 적용하려면 환경 정의 + 보상 설계 + 평가 기준이 깔끔하게 세팅돼 있어야 한다.요즘엔 LLM에도 policy fine-tuning이 필수가 되면서
나처럼 강화학습 피했던 사람도 결국 하게 되는 것 같다.다음 글에서는 GRPO 논문 요약이나, 내가 실제로 agent에 적용한 과정을 정리해보려고 한다.
'인공지능 공부' 카테고리의 다른 글
| [논문 리뷰] LLM이 과연 정말 thinking을 할까?: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 리뷰 (4) | 2025.06.20 |
|---|---|
| [논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capanility in LLMs via Reinforcement Learning (1) | 2025.06.20 |
| 인공지능의 알파이자 오메가 (0) | 2025.05.15 |
| vLLM을 GPU에 띄운다. (0) | 2025.05.15 |
| RAG 정리하기 (0) | 2025.05.15 |