인공지능 공부

인공지능의 알파이자 오메가

dnjswngo 2025. 5. 15. 23:53

y = ax + b

이건 그냥 통계학과 1학년 애들이 배우는 거고,
여기에 복잡성을 더하겠다 하면은 활성화 함수 도입

  • ReLU나 GELU 같은 비선형성으로 개, 고양이도 구분한다.

이때 최적 a를 어떻게 찾느냐 — 옵티마이저

  • Gradient Descent의 실행 전략들: Adam, AdamW

#1 활성화 함수

나는 게으름뱅이니까 딱 아래 정도만 정리할게

1. 활성화 함수 왜 쓰냐?

비선형성을 줘서 딥러닝이 복잡한 문제를 풀게 한다.
선형 함수는 계속 쌓여도 쌓여도 선형.
이게 있어야 이미지, 자연어처럼 복잡한 관계 학습 가능.
걍 대충 말하면 복잡성 줘서 표현력 증가~

2. 가장 많이 쓰이는 함수는 뭐냐?

  • 국밥 ReLU : 빠르고 효과적
  • GELU: 부드러운 ReLU 느낌 (GPT, BERT에 자주 나옴)
  • Swish: 구글이 만든 건데 ReLU보다 좋은 경우 있음

#2 옵티마이저

loss 값을 줄인다 = 예측값과 실제값의 차이를 줄이는 거다
(차이든, 차이의 절댓값이든, 차이의 제곱이든 뭐든 간에)
이 손실 함수의 최솟값을 찾는다는 건
→ 저 손실 함수의 global minimum을 찾는 것
고등학교 때 어떻게 했냐?
→ 미분해서 0 되는 점을 찾았지
→ 이게 바로 Gradient Descent (경사하강법)


계산 몇 개 알아보자

  • SGD : 한 샘플(or 배치) 기준으로 기울기 계산 → 이동
  • Momentum : 이전 방향 기억해서 관성처럼 이동
  • Adam : Momentum + 학습률 자동 조절 → 요즘 기본
  • AdamW : Adam + 정규화(Weight Decay) → LLM에 많이 씀