표본상관계수

2024. 9. 4. 08:53DATA/BIGDATA

반응형

 

 

 

상관계수와 표본상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도이다.

상관계수(ρ)와 표본상관계수(r)
- 상관계수(ρ): 모집단 전체에서 두 변수 간의 상관관계를 나타내는 값을 의미하며, 이를 모집단 상관계수라고도 한다.
- 표본상관계수(r): 모집단의 일부인 표본 데이터를 사용하여 두 변수 간의 상관관계를 추정한 값을 의미한다. 모집단 상관계수(ρ)의 추정치로 사용된다.



표본상관계수 \( r \)는 

\[
r = \frac{\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \overline{X})^2} \sqrt{\sum_{i=1}^{n} (Y_i - \overline{Y})^2}}
\]


- \( n \): 표본의 크기
- \( X_i \)와 \( Y_i \): 두 변수 \( X \)와 \( Y \)의 각각의 데이터 값
- \( \overline{X} \): \( X \)의 표본 평균
- \( \overline{Y} \): \( Y \)의 표본 평균



- 분자 \( \sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y}) \): 두 변수 간의 공분산(Covariance)을 나타낸다. 이 값은 두 변수의 변동이 얼마나 같이 움직이는지를 보여준다.
  - 공분산이 양수이면 두 변수는 같은 방향으로 움직이고, 음수이면 반대 방향으로 움직이다.

- 분모: 두 변수의 표준편차의 곱으로 구성되어 있다. 이 값은 공분산을 두 변수의 변동성으로 정규화하여, 상관계수가 -1과 1 사이의 값을 가지도록 한다.
  - \( \sqrt{\sum_{i=1}^{n} (X_i - \overline{X})^2} \)는 변수 \( X \)의 표준편차이고,
  - \( \sqrt{\sum_{i=1}^{n} (Y_i - \overline{Y})^2} \)는 변수 \( Y \)의 표준편차이다.

 

 


결과가 의미하는 것

표본상관계수 \( r \)의 값은 

- \( r = 1 \): 두 변수 간에 완벽한 양의 선형 관계가 있다. 즉, 하나의 변수가 증가할 때 다른 변수도 항상 일정한 비율로 증가한다.
- \( r = -1 \): 두 변수 간에 완벽한 음의 선형 관계가 있다. 즉, 하나의 변수가 증가할 때 다른 변수는 항상 일정한 비율로 감소한다.
- \( r = 0 \): 두 변수 간에 선형 관계가 없다. (단, 비선형 관계가 있을 수는 있음)
- \( 0 < r < 1 \): 양의 선형 관계가 있지만, 완벽하지는 않다. \( r \)이 1에 가까울수록 강한 양의 선형 관계를 의미한다.
- \( -1 < r < 0 \): 음의 선형 관계가 있지만, 완벽하지는 않다. \( r \)이 -1에 가까울수록 강한 음의 선형 관계를 의미한다.



- 상관계수의 크기: 두 변수 간의 관계의 강도를 나타낸다. 절댓값이 1에 가까울수록 강한 관계를, 0에 가까울수록 약한 관계를 의미한다.
- 상관계수는 변수 간의 상관관계를 나타내지만, 이것이 인과 관계를 의미하지는 않다. 즉, 한 변수가 다른 변수의 원인이라는 결론을 내릴 수는 없다.

반응형

'DATA > BIGDATA' 카테고리의 다른 글

결정계수 (R²)  (0) 2024.09.05
회귀분석에서 가설 검정  (0) 2024.09.05
MNIST 를 학습하고 예측하는 코드  (0) 2024.07.15
정규화(Normalization)  (0) 2024.07.15
Cross Entropy (크로스 엔트로피)  (0) 2024.07.15