y = ax + b
이건 그냥 통계학과 1학년 애들이 배우는 거고,
여기에 복잡성을 더하겠다 하면은 활성화 함수 도입
- ReLU나 GELU 같은 비선형성으로 개, 고양이도 구분한다.
이때 최적 a를 어떻게 찾느냐 — 옵티마이저
- Gradient Descent의 실행 전략들: Adam, AdamW
#1 활성화 함수
나는 게으름뱅이니까 딱 아래 정도만 정리할게
1. 활성화 함수 왜 쓰냐?
비선형성을 줘서 딥러닝이 복잡한 문제를 풀게 한다.
선형 함수는 계속 쌓여도 쌓여도 선형.
이게 있어야 이미지, 자연어처럼 복잡한 관계 학습 가능.
걍 대충 말하면 복잡성 줘서 표현력 증가~
2. 가장 많이 쓰이는 함수는 뭐냐?
- 국밥 ReLU : 빠르고 효과적
- GELU: 부드러운 ReLU 느낌 (GPT, BERT에 자주 나옴)
- Swish: 구글이 만든 건데 ReLU보다 좋은 경우 있음
#2 옵티마이저
loss 값을 줄인다 = 예측값과 실제값의 차이를 줄이는 거다
(차이든, 차이의 절댓값이든, 차이의 제곱이든 뭐든 간에)
이 손실 함수의 최솟값을 찾는다는 건
→ 저 손실 함수의 global minimum을 찾는 것
고등학교 때 어떻게 했냐?
→ 미분해서 0 되는 점을 찾았지
→ 이게 바로 Gradient Descent (경사하강법)
계산 몇 개 알아보자
- SGD : 한 샘플(or 배치) 기준으로 기울기 계산 → 이동
- Momentum : 이전 방향 기억해서 관성처럼 이동
- Adam : Momentum + 학습률 자동 조절 → 요즘 기본
- AdamW : Adam + 정규화(Weight Decay) → LLM에 많이 씀
'인공지능 공부' 카테고리의 다른 글
| [논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capanility in LLMs via Reinforcement Learning (1) | 2025.06.20 |
|---|---|
| 미루고 미루던 강화학습 (4) | 2025.06.20 |
| vLLM을 GPU에 띄운다. (0) | 2025.05.15 |
| RAG 정리하기 (0) | 2025.05.15 |
| Sequence-to-Sequence, Attention (4) | 2024.07.16 |