2024. 9. 5. 07:44ㆍDATA/BIGDATA
1. 결정계수 (R²)
결정계수 \( R^2 \)는 회귀 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표이다. 즉, 전체 변동성 중에서 회귀식이 설명하는 변동성의 비율을 나타낸다.
\[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]
- SSR (Sum of Squares for Regression): 회귀식에 의해 설명되는 변동
\[ SSR = \sum (\hat{y}_i - \bar{y})^2 \]
\(\hat{y}_i\)는 예측값, \(\bar{y}\)는 종속 변수의 평균값이다.
- SSE (Sum of Squares for Error): 회귀식으로 설명할 수 없는 변동
\[ SSE = \sum (y_i - \hat{y}_i)^2 \]
\(y_i\)는 실제값, \(\hat{y}_i\)는 예측값이다.
- SST (Total Sum of Squares): 총 변동
\[ SST = \sum (y_i - \bar{y})^2 \]
범위: \( R^2 \)의 값은 0과 1 사이이며, 1에 가까울수록 회귀 모델이 데이터의 변동성을 잘 설명한다고 볼 수 있다. 0은 모델이 아무 것도 설명하지 못함을 의미한다.
■ 주의할 점
- 독립 변수의 수 증가: 독립 변수의 수가 증가하면 \( R^2 \) 값은 항상 증가한다. 이는 회귀 모델이 더 많은 변수를 포함함으로써 더 많은 변동성을 설명할 수 있기 때문이다.
수정 결정계수 (Adjusted R²)
수정 결정계수 \( R^2_{adj} \)는 독립 변수의 수가 증가할 때, \( R^2 \)가 증가하는 것을 보정하기 위해 사용된다. 이 지표는 모델의 설명력을 독립 변수의 수와 데이터의 수를 고려하여 조정한다.
\[ R^2_{adj} = 1 - \left(\frac{SSE / (n - k - 1)}{SST / (n - 1)}\right) \]
- \( n \)은 데이터의 수
- \( k \)는 독립 변수의 수
\( R^2_{adj} \)는 \( R^2 \)와 유사하게 0과 1 사이의 값을 가지며, 1에 가까울수록 더 좋은 모델을 의미한다. 그러나 \( R^2_{adj} \)는 독립 변수의 수가 증가할 때, 모델이 실질적으로 얼마나 개선되었는지를 반영한다.
'DATA > BIGDATA' 카테고리의 다른 글
Mongodb 설치 (3) | 2024.11.14 |
---|---|
카이제곱 검정 (0) | 2024.09.06 |
회귀분석에서 가설 검정 (0) | 2024.09.05 |
표본상관계수 (0) | 2024.09.04 |
MNIST 를 학습하고 예측하는 코드 (0) | 2024.07.15 |