인공지능 공부

미루고 미루던 강화학습

dnjswngo 2025. 6. 20. 11:13

연구실에서 인공지능 관련 스터디를 두번이나 했고, 논문 이래저래 읽으면서도 강화학습 공부는 진짜 계속 회피했다.
왜냐하면 저 개념 자체가 하나도 와닿지 않기 때문에 ~

강화학습하면 늘 드는 비유가 게임인데,
로봇(혹은 캐릭터)가 잘하면 보상을 주고, 아니면 패널티를 주는 식으로
강아지 훈련시키듯이 하는거래서 진짜 한개도 와닿지가 않았음. 이게 되는 기계학습인가? 
그치만 인턴 초기에 실장님께서 deepseek를 원하셨고, GRPO를 사용하고자 ,, 공부를 시작했다.

 

📌 1. 강화학습이란?

짧게 말하면,
“특정 상태(state)에서 어떤 행동(action)을 취할 때 가장 높은 보상을 받도록 학습하는 알고리즘”이다.

이 개념은 심리학의 보상 학습 이론과 **최적화 수학(벨만 방정식)**이 만난 형태다.

  • 보상학습: 잘하면 간식, 못하면 벌
  • 벨만 방정식: 현재 상태에서의 가치(value)를 미래 보상까지 고려해 재귀적으로 계산하는 수식

→ 강화학습은 결국 “보상을 최대화하는 행동 정책(policy)을 학습”하는 것이다.

 

📌 2. 구성요소 — 나는 LLM 기반 agent로 예시를 들겠다

 

구성 요소 정의 (LLM agent 예시)
Agent 행동 주체 LLM 모델 (예: Assistant)
Environment 상호작용 대상 유저 prompt, API 응답, feedback 등
State (S) 현재 상황 예: 대화 이력, 목적 추론 결과 등
Action (A) 에이전트의 선택 예: 어떤 함수 호출할지, 어떤 응답을 생성할지
Reward (R) 피드백, 점수 예: 목적에 부합하는 응답을 생성했는가?
Policy (π) 행동 전략 모델의 의사결정 기준 (함수 선택, 응답 방식 등)

 

 

📌 3. 나는 어떤 부분이 제일 어려웠냐면

보상을 준다!라고 하는게 진짜 너무 개소리 같았다.

 

근데 보상이라는게 그 동물과 로봇에 자꾸 비유를 줘서 내가 헷갈린거지,

실제로 정의한 보상(출력언어라던가, 포멧이라던가)을 바탕으로 점수 기반으로 진짜로 보상을 줄 수 있다.

KTO는 -1 또는 1로, GRPO는 0~1 사이 값을 보상으로 산출해서

목적함수!에 실제로 값을 주는거임.

 

📌 4. 마치며

강화학습은 뭔가 대단해 보이지만,
실제로 적용하려면 환경 정의 + 보상 설계 + 평가 기준이 깔끔하게 세팅돼 있어야 한다.

요즘엔 LLM에도 policy fine-tuning이 필수가 되면서
나처럼 강화학습 피했던 사람도 결국 하게 되는 것 같다.

다음 글에서는 GRPO 논문 요약이나, 내가 실제로 agent에 적용한 과정을 정리해보려고 한다.