2024. 3. 27. 08:29ㆍDATA/BIGDATA
■ t 통계량은 각각의 회귀 계수에 대한 유의성을 평가하는 데 사용된다.
각 계수의 t 통계량이 통계적으로 유의미한 경우, 해당 독립 변수가 종속 변수를 설명하는 데 중요한 역할을 한다고 분석함으로써 각 독립 변수의 중요성과 영향력을 파악할 수 있다.
회귀 분석에서 각 독립 변수 \(X_i\)에 대한 회귀 계수 \(\beta_i\)의 유의성을 평가
\[ t_i = \frac{\hat{\beta_i}}{SE(\hat{\beta_i})} \]
- \(\hat{\beta_i}\)는 독립 변수 \(X_i\)에 대한 추정된 회귀 계수이다.
- \(SE(\hat{\beta_i})\)는 \(\hat{\beta_i}\)의 표준 오차(Standard Error)이다.
t 통계량의 절대값이 크면 해당 독립 변수가 종속 변수에 통계적으로 유의미한 영향을 미친다고 판단할 수 있으며 t 통계량의 절대값이 크고, 해당되는 p-값이 작은 경우 (예: p < 0.05), 해당 독립 변수는 유의미하다고 결론짓는다.
■ F 통계량은 전체 회귀 모델의 유의성을 평가하는 데 사용되며 전체 회귀 모델이 종속 변수를 얼마나 잘 설명하는지를 나타낸다. 만약 F 통계량이 유의미한 경우, 최소한 하나의 독립 변수가 종속 변수를 설명하는 데 유의한 영향을 미친다는 것을 의미한다.
회귀 분석에서 F 통계량은
\[ F = \frac{MSR}{MSE} \]
- \(MSR\) (Mean Square Regression)는 회귀 제곱합(SSR)을 자유도 \(p\) (독립 변수의 수)로 나눈 값이다.
- \(MSE\) (Mean Square Error)는 잔차 제곱합(SSE)을 자유도 \(n - p - 1\) (전체 관측치 수 \(n\)에서 독립 변수 수 \(p\)와 상수를 뺀 값)로 나눈 값이다.
SSR (Sum of Squares for Regression)과 SSE (Sum of Squares for Error)는 회귀 분석에서 모델의 설명력과 오차를 평가하는 데 사용되는 두 가지 중요한 측도이다.
- \(MSR\) (Mean Square Regression):
\[ MSR = \frac{SSR}{p} \]
- \(MSE\) (Mean Square Error):
\[ MSE = \frac{SSE}{n - p - 1} \]
- \(SSR\) (Sum of Squares for Regression)은 회귀 제곱합으로, 모델이 설명하는 변동
- \(SSE\) (Sum of Squares for Error)은 잔차 제곱합으로, 모델이 설명하지 못하는 변동
- \(p\)는 독립 변수의 수
- \(n\)은 전체 관측치의 수
\[ F = \frac{MSR}{MSE} = \frac{SSR / p}{SSE / (n - p - 1)} \]
F 통계량은 모델이 무작위 추정치보다 더 나은 예측을 제공하는지를 평가한다. F 통계량이 크고, 이에 해당하는 p-값이 작을 경우 (예: p < 0.05), 전체 회귀 모델이 유의미하다고 판단하며 최소한 하나의 독립 변수가 종속 변수를 설명하는 데 유의한 영향을 미친다는 것을 의미한다.
- t 통계량은 각각의 독립 변수의 중요성을 평가하고, F 통계량은 전체 회귀 모델의 유의성을 평가하여 종속 변수를 얼마나 잘 설명하는지를 파악하는 데 사용된다.
'DATA > BIGDATA' 카테고리의 다른 글
BIAS (0) | 2024.03.30 |
---|---|
Jaccard Distance (0) | 2024.03.28 |
ROC(Receiver Operating Characteristic) (0) | 2024.03.27 |
MSE, RMSE (0) | 2024.03.26 |
회귀분석모델과 결정계수 (0) | 2024.03.21 |