통계 및 기법 관련

[ML] 회귀 분석 평가 지표

pjw250 2024. 11. 19. 00:07

4.1 회귀분석의 평가지표

선형회귀 용어 정리 (통계와 머신러닝)

  • 공통
    Y는 종속 변수, 결과 변수
    X는 독립 변수, 원인 변수, 설명 변수
  • 통계학에서 사용하는 선형회귀 식
    $ Y = \beta_0 + \beta_1X + \varepsilon $
    • $\beta_0$ : 편향(bias)
    • $\beta_1$ : 회귀 계수
    • $\varepsilon$ : 오차(error), 모델이 설명하지 못하는 Y 의 변동성
  • 머신러닝/딥러닝에서 사용하는 선형회귀 식
    $ Y = wX + b $
    • $w$ : 가중치
    • $b$ : 편향(Bias)
    • 머싱러닝/딥러닝 모델에서 오차 항은 명시적으로 다루지 않음

회귀 평가 지표 - MSE, RMSE, MAE

  • 에러 정의 방법
    (1) 에러 = 실제 데이터 - 예측 데이터
    (2) 에러를 모두 제곱하여 SUM
    (3) 데이터 개수 (n) 만큼 나누기
  • 에러 정의 방법 수식
    (1) $\varepsilon = y_i - \hat{y_i}$
    (2) $\sum\limits_{i=1}^n (y_i - \hat{y_i})^2$
    (3) $ \frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n} $
  • MSE (Mean Squared Error)
    $$ MSE = \frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n} $$
  • RMSE (Root Mean Squared Error)
    $$ RMSE = \sqrt{\frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}} $$
  • MAE (Mean Absolute Error)
    $$ MAE = \frac{1}{n}\sum\limits_{i=1}^n{\left\vert y_i - \hat{y_i} \right\vert} $$

선형 회귀만의 평가 지표 - R Square

  • R Square 정의
    $$ R^2 = \frac{SSR}{SST} = \frac{SSR}{SSR+SSE} $$

  • 3번 샘플의 설명력
    • 3번 데이터 값 $ SST = (169 + 5) ^ 2, SSR = 169 ^ 2 $
    • 해당 값에 대한 설명력 $ SST / SSR = 94% $
    • 단, 모든 샘플 값에 대해서 위 계산을 수행해야함