대표적인 회귀 모델 총정리
회귀(Regression) 대표 모델들의 핵심을 요약해보자.
1) Linear Regression (선형회귀)
알고리즘 원리
- 입력 벡터 $x$에 가중치 $w$를 곱해 직선/평면으로 $y$를 예측
- 목표: 오차(Residual)의 합을 최소화하는 $w$ 찾기
-
오차 측정: MSE(Mean Squared Error)
$min_{w} \sum (y - \hat{y})^2$
핵심 원리
- $y = w_1x_1 + w_2x_2 + \dots + b$ 형태의 최적 직선 찾기
- 정규방정식 또는 경사하강법으로 해결
2) Ridge / Lasso / Elastic Net
선형회귀 + 규제(Regularization)
Ridge (L2 penalty)
$min (MSE + \lambda \sum w^2$
- 큰 가중치를 억제 → 과적합 방지
- 가중치가 0이 되지는 않음
Lasso (L1 penalty)
| $min (MSE + \lambda \sum | w | $ |
- 가중치가 0이 됨 → 변수 선택 효과
Elastic Net
- L1 + L2 혼합
- 피처 수가 많을 때 매우 유용
핵심 원리
- 규제를 통해 모델 복잡도를 줄이고 일반화 성능을 향상
- 과적합 방지의 대표 기법
3) Decision Tree Regressor
알고리즘 원리
- 데이터를 조건(Feature Threshold)으로 반복적으로 쪼개 예측
- 분기 기준: 분할 후 분산(Variance) 감소량이 가장 큰 지점 선택
직관
- 나무처럼 if-else 규칙을 계속 분기하며 예측
4) Random Forest Regressor
알고리즘 원리
- 여러 개의 결정트리를 서로 다른 데이터(부트스트랩 샘플)로 학습
- 트리들의 예측을 평균해 최종 예측 생성
장점
- Bagging으로 분산(Variance) 감소
- 과적합에 강함
- 피처 중요도 자동 제공
직관
- 여러 나무의 평균을 사용하는 숲 모델
5) Gradient Boosting / XGBoost / LightGBM / CatBoost
알고리즘 원리 (Boosting 공통)
- 약한 학습기(Weak Learner, 주로 트리)를 순차적으로 학습
- 이전 모델의 오차(Residual)를 다음 모델이 보정
$ = f_1(x) + f_2(x) + f_3(x) + \dots$
Boosting 핵심
- 앞 단계가 틀린 부분을 다음 모델이 집중해서 학습
- 점점 강력한 예측기가 됨
XGBoost 핵심
- 정교한 규제(L1, L2)
- 빠른 병렬화
- 오버피팅 방지 기능 우수
LightGBM 핵심
- 트리를 Leaf-wise로 확장
- 속도 매우 빠름
- 대용량 데이터에 강함
CatBoost 핵심
- 범주형 변수 자동 처리
- Ordered Boosting으로 타깃 누수 방지
- 적은 데이터에서도 안정적
6) k-NN Regressor
알고리즘 원리
- 새로운 점 $x$ 주변의 가장 가까운 $k$개 이웃을 탐색
- 이웃 값의 평균으로 예측
특징
- 거리 기반(Local) 모델
- 고차원에서는 성능 저하(차원의 저주)