대표적인 회귀 모델 총정리

회귀(Regression) 대표 모델들의 핵심을 요약해보자.


1) Linear Regression (선형회귀)

알고리즘 원리

  • 입력 벡터 $x$에 가중치 $w$를 곱해 직선/평면으로 $y$를 예측
  • 목표: 오차(Residual)의 합을 최소화하는 $w$ 찾기
  • 오차 측정: MSE(Mean Squared Error)

    $min_{w} \sum (y - \hat{y})^2$

핵심 원리

  • $y = w_1x_1 + w_2x_2 + \dots + b$ 형태의 최적 직선 찾기
  • 정규방정식 또는 경사하강법으로 해결

2) Ridge / Lasso / Elastic Net

선형회귀 + 규제(Regularization)

Ridge (L2 penalty)

$min (MSE + \lambda \sum w^2$

  • 큰 가중치를 억제 → 과적합 방지
  • 가중치가 0이 되지는 않음

Lasso (L1 penalty)

$min (MSE + \lambda \sum w $
  • 가중치가 0이 됨 → 변수 선택 효과

Elastic Net

  • L1 + L2 혼합
  • 피처 수가 많을 때 매우 유용

핵심 원리

  • 규제를 통해 모델 복잡도를 줄이고 일반화 성능을 향상
  • 과적합 방지의 대표 기법

3) Decision Tree Regressor

알고리즘 원리

  • 데이터를 조건(Feature Threshold)으로 반복적으로 쪼개 예측
  • 분기 기준: 분할 후 분산(Variance) 감소량이 가장 큰 지점 선택

직관

  • 나무처럼 if-else 규칙을 계속 분기하며 예측

4) Random Forest Regressor

알고리즘 원리

  • 여러 개의 결정트리를 서로 다른 데이터(부트스트랩 샘플)로 학습
  • 트리들의 예측을 평균해 최종 예측 생성

장점

  • Bagging으로 분산(Variance) 감소
  • 과적합에 강함
  • 피처 중요도 자동 제공

직관

  • 여러 나무의 평균을 사용하는 숲 모델

5) Gradient Boosting / XGBoost / LightGBM / CatBoost

알고리즘 원리 (Boosting 공통)

  • 약한 학습기(Weak Learner, 주로 트리)를 순차적으로 학습
  • 이전 모델의 오차(Residual)를 다음 모델이 보정
    $ = f_1(x) + f_2(x) + f_3(x) + \dots$

Boosting 핵심

  • 앞 단계가 틀린 부분을 다음 모델이 집중해서 학습
  • 점점 강력한 예측기가 됨

XGBoost 핵심

  • 정교한 규제(L1, L2)
  • 빠른 병렬화
  • 오버피팅 방지 기능 우수

LightGBM 핵심

  • 트리를 Leaf-wise로 확장
  • 속도 매우 빠름
  • 대용량 데이터에 강함

CatBoost 핵심

  • 범주형 변수 자동 처리
  • Ordered Boosting으로 타깃 누수 방지
  • 적은 데이터에서도 안정적

6) k-NN Regressor

알고리즘 원리

  • 새로운 점 $x$ 주변의 가장 가까운 $k$개 이웃을 탐색
  • 이웃 값의 평균으로 예측

특징

  • 거리 기반(Local) 모델
  • 고차원에서는 성능 저하(차원의 저주)