대표적인 회귀 모델 총정리

13 Nov 2025 • yeonliyou

회귀(Regression) 대표 모델들의 핵심을 요약해보자.

1) Linear Regression (선형회귀)

알고리즘 원리

입력 벡터 $x$에 가중치 $w$를 곱해 직선/평면으로 $y$를 예측
목표: 오차(Residual)의 합을 최소화하는 $w$ 찾기
오차 측정: MSE(Mean Squared Error)

$min_{w} \sum (y - \hat{y})^2$

핵심 원리

$y = w_1x_1 + w_2x_2 + \dots + b$ 형태의 최적 직선 찾기
정규방정식 또는 경사하강법으로 해결

2) Ridge / Lasso / Elastic Net

선형회귀 + 규제(Regularization)

Ridge (L2 penalty)

$min (MSE + \lambda \sum w^2$

큰 가중치를 억제 → 과적합 방지
가중치가 0이 되지는 않음

Lasso (L1 penalty)

$min (MSE + \lambda \sum

w

$

가중치가 0이 됨 → 변수 선택 효과

Elastic Net

L1 + L2 혼합
피처 수가 많을 때 매우 유용

핵심 원리

규제를 통해 모델 복잡도를 줄이고 일반화 성능을 향상
과적합 방지의 대표 기법

3) Decision Tree Regressor

알고리즘 원리

데이터를 조건(Feature Threshold)으로 반복적으로 쪼개 예측
분기 기준: 분할 후 분산(Variance) 감소량이 가장 큰 지점 선택

직관

나무처럼 if-else 규칙을 계속 분기하며 예측

4) Random Forest Regressor

알고리즘 원리

여러 개의 결정트리를 서로 다른 데이터(부트스트랩 샘플)로 학습
트리들의 예측을 평균해 최종 예측 생성

장점

Bagging으로 분산(Variance) 감소
과적합에 강함
피처 중요도 자동 제공

직관

여러 나무의 평균을 사용하는 숲 모델

5) Gradient Boosting / XGBoost / LightGBM / CatBoost

알고리즘 원리 (Boosting 공통)

약한 학습기(Weak Learner, 주로 트리)를 순차적으로 학습
이전 모델의 오차(Residual)를 다음 모델이 보정
$ = f_1(x) + f_2(x) + f_3(x) + \dots$

Boosting 핵심

앞 단계가 틀린 부분을 다음 모델이 집중해서 학습
점점 강력한 예측기가 됨

XGBoost 핵심

정교한 규제(L1, L2)
빠른 병렬화
오버피팅 방지 기능 우수

LightGBM 핵심

트리를 Leaf-wise로 확장
속도 매우 빠름
대용량 데이터에 강함

CatBoost 핵심

범주형 변수 자동 처리
Ordered Boosting으로 타깃 누수 방지
적은 데이터에서도 안정적

6) k-NN Regressor

알고리즘 원리

새로운 점 $x$ 주변의 가장 가까운 $k$개 이웃을 탐색
이웃 값의 평균으로 예측

특징

거리 기반(Local) 모델
고차원에서는 성능 저하(차원의 저주)