미루고 미루던 강화학습

인공지능 공부

미루고 미루던 강화학습

dnjswngo 2025. 6. 20. 11:13

연구실에서 인공지능 관련 스터디를 두번이나 했고, 논문 이래저래 읽으면서도 강화학습 공부는 진짜 계속 회피했다.
왜냐하면 저 개념 자체가 하나도 와닿지 않기 때문에 ~

강화학습하면 늘 드는 비유가 게임인데,
로봇(혹은 캐릭터)가 잘하면 보상을 주고, 아니면 패널티를 주는 식으로
강아지 훈련시키듯이 하는거래서 진짜 한개도 와닿지가 않았음. 이게 되는 기계학습인가?
그치만 인턴 초기에 실장님께서 deepseek를 원하셨고, GRPO를 사용하고자 ,, 공부를 시작했다.

📌 1. 강화학습이란?

짧게 말하면,
“특정 상태(state)에서 어떤 행동(action)을 취할 때 가장 높은 보상을 받도록 학습하는 알고리즘”이다.

이 개념은 심리학의 보상 학습 이론과 **최적화 수학(벨만 방정식)**이 만난 형태다.

보상학습: 잘하면 간식, 못하면 벌

벨만 방정식: 현재 상태에서의 가치(value)를 미래 보상까지 고려해 재귀적으로 계산하는 수식

→ 강화학습은 결국 “보상을 최대화하는 행동 정책(policy)을 학습”하는 것이다.

📌 2. 구성요소 — 나는 LLM 기반 agent로 예시를 들겠다

구성	요소	정의 (LLM agent 예시)
Agent	행동 주체	LLM 모델 (예: Assistant)
Environment	상호작용 대상	유저 prompt, API 응답, feedback 등
State (S)	현재 상황	예: 대화 이력, 목적 추론 결과 등
Action (A)	에이전트의 선택	예: 어떤 함수 호출할지, 어떤 응답을 생성할지
Reward (R)	피드백, 점수	예: 목적에 부합하는 응답을 생성했는가?
Policy (π)	행동 전략	모델의 의사결정 기준 (함수 선택, 응답 방식 등)

📌 3. 나는 어떤 부분이 제일 어려웠냐면

보상을 준다!라고 하는게 진짜 너무 개소리 같았다.

근데 보상이라는게 그 동물과 로봇에 자꾸 비유를 줘서 내가 헷갈린거지,

실제로 정의한 보상(출력언어라던가, 포멧이라던가)을 바탕으로 점수 기반으로 진짜로 보상을 줄 수 있다.

KTO는 -1 또는 1로, GRPO는 0~1 사이 값을 보상으로 산출해서

목적함수!에 실제로 값을 주는거임.

📌 4. 마치며

강화학습은 뭔가 대단해 보이지만,
실제로 적용하려면 환경 정의 + 보상 설계 + 평가 기준이 깔끔하게 세팅돼 있어야 한다.

요즘엔 LLM에도 policy fine-tuning이 필수가 되면서
나처럼 강화학습 피했던 사람도 결국 하게 되는 것 같다.

다음 글에서는 GRPO 논문 요약이나, 내가 실제로 agent에 적용한 과정을 정리해보려고 한다.

'인공지능 공부' 카테고리의 다른 글

[논문 리뷰] LLM이 과연 정말 thinking을 할까?: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 리뷰 (4)	2025.06.20
[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capanility in LLMs via Reinforcement Learning (1)	2025.06.20
인공지능의 알파이자 오메가 (0)	2025.05.15
vLLM을 GPU에 띄운다. (0)	2025.05.15
RAG 정리하기 (0)	2025.05.15

현재글미루고 미루던 강화학습

개처럼 맨날 산책이나 하면서 놀고 싶어

dnjswngo 님의 블로그 입니다.

closedai, 감정시뮬레이션, 베이즈이론, ChatGPT, 인공지능, 생성형AI, SG기타, Bert, 베이지안 통계학, 빈도론, 영화 #박찬욱 #올드보이, ai윤리, ai철학, 샴페인슈퍼노바, llm, Ai, 딥러닝, nlp, MatchSum, 도커 #docker #컨테이너 #개발환경 #개발자공부 #백엔드 #devops #dockerimage #개발일지 #기술블로그,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

개처럼 맨날 산책이나 하면서 놀고 싶어