결정계수 (R²)

2024. 9. 5. 07:44DATA/BIGDATA

반응형

 

 

 

 

 1. 결정계수 (R²)

 결정계수 \( R^2 \)는 회귀 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표이다. 즉, 전체 변동성 중에서 회귀식이 설명하는 변동성의 비율을 나타낸다.


\[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]


- SSR (Sum of Squares for Regression): 회귀식에 의해 설명되는 변동
  \[ SSR = \sum (\hat{y}_i - \bar{y})^2 \]
  \(\hat{y}_i\)는 예측값, \(\bar{y}\)는 종속 변수의 평균값이다.
  
- SSE (Sum of Squares for Error): 회귀식으로 설명할 수 없는 변동
  \[ SSE = \sum (y_i - \hat{y}_i)^2 \]
  \(y_i\)는 실제값, \(\hat{y}_i\)는 예측값이다.
  
- SST (Total Sum of Squares): 총 변동
  \[ SST = \sum (y_i - \bar{y})^2 \]

 

 


범위: \( R^2 \)의 값은 0과 1 사이이며, 1에 가까울수록 회귀 모델이 데이터의 변동성을 잘 설명한다고 볼 수 있다. 0은 모델이 아무 것도 설명하지 못함을 의미한다.

 

■ 주의할 점
- 독립 변수의 수 증가: 독립 변수의 수가 증가하면 \( R^2 \) 값은 항상 증가한다. 이는 회귀 모델이 더 많은 변수를 포함함으로써 더 많은 변동성을 설명할 수 있기 때문이다. 

 


 수정 결정계수 (Adjusted R²)

수정 결정계수 \( R^2_{adj} \)는 독립 변수의 수가 증가할 때, \( R^2 \)가 증가하는 것을 보정하기 위해 사용된다. 이 지표는 모델의 설명력을 독립 변수의 수와 데이터의 수를 고려하여 조정한다.

 

 

\[ R^2_{adj} = 1 - \left(\frac{SSE / (n - k - 1)}{SST / (n - 1)}\right) \]


- \( n \)은 데이터의 수
- \( k \)는 독립 변수의 수

 \( R^2_{adj} \)는 \( R^2 \)와 유사하게 0과 1 사이의 값을 가지며, 1에 가까울수록 더 좋은 모델을 의미한다. 그러나 \( R^2_{adj} \)는 독립 변수의 수가 증가할 때, 모델이 실질적으로 얼마나 개선되었는지를 반영한다.



 
 

 

 

반응형

'DATA > BIGDATA' 카테고리의 다른 글

Mongodb 설치  (3) 2024.11.14
카이제곱 검정  (0) 2024.09.06
회귀분석에서 가설 검정  (0) 2024.09.05
표본상관계수  (0) 2024.09.04
MNIST 를 학습하고 예측하는 코드  (0) 2024.07.15