공분산 Covariance , 공분산 행렬 Thecovariance matrix 그리고 상관계수 CorrelationCoefficient

2024. 3. 17. 16:59APPLIED/Statistics

반응형

공분산은 두 변수 간의 관계를 측정하는 통계량이며 두 변수가 함께 어떻게 변하는지를 나타내는데 사용된다. 

 

정의

두 변수 \(X\)와 \(Y\)의 공분산은 다음과 같이 계산된다.

\[
\text{cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
\]

여기서 \(x_i\)는 변수 \(X\)의 관측값, \(y_i\)는 변수 \(Y\)의 관측값이며, \(\bar{x}\)와 \(\bar{y}\)는 각각 변수 \(X\)와 \(Y\)의 평균이다. \(n\)은 데이터 포인트의 수를 나타낸다.


어떤 학생들의 공부 시간과 성적 데이터를 가지고 있다고 하면 \(X\)를 공부 시간이라 하고, \(Y\)를 성적이라고 하면, \(X\)와 \(Y\)의 공분산은 다음과 같이 계산된다.

1. 학생 A: \(X = 5\)시간, \(Y = 85\)점
2. 학생 B: \(X = 3\)시간, \(Y = 70\)점
3. 학생 C: \(X = 7\)시간, \(Y = 90\)점

이 경우, 공분산을 계산하기 위해 우선 \(X\)와 \(Y\)의 평균을 계산한다.

\[
\bar{X} = \frac{5 + 3 + 7}{3} = 5 \text{시간}
\]
\[
\bar{Y} = \frac{85 + 70 + 90}{3} = 81.67 \text{점}
\]

그런 다음, 각 학생의 데이터와 평균을 이용하여 공분산을 계산한다.

\[
\text{cov}(X, Y) = \frac{(5 - 5)(85 - 81.67) + (3 - 5)(70 - 81.67) + (7 - 5)(90 - 81.67)}{3}
\]
\[
= \frac{(0)(3.33) + (-2)(-11.67) + (2)(8.33)}{3}
\]
\[
= \frac{0 + 23.34 + 16.66}{3} = \frac{40}{3} \approx 13.33
\]

따라서 이 데이터셋에서 \(X\)와 \(Y\)의 공분산은 약 \(13.33\)이 된다.

 

 

 

 

 

 

 

공분산 행렬

 

두 변수 간의 공분산을 행렬로 나타내려면 다변량 데이터셋이 필요한다. 각 변수 쌍의 공분산은 행렬의 해당 위치에 위치한다.

예를 들어, 두 변수 \(X\)와 \(Y\)로 이루어진 다변량 데이터셋이 있다고 가정하면

공분산 행렬은

\[
\Sigma = \begin{bmatrix}
\text{cov}(X, X) & \text{cov}(X, Y) \\
\text{cov}(Y, X) & \text{cov}(Y, Y)
\end{bmatrix}
\]

여기서 \(\text{cov}(X, X)\)는 \(X\)와 \(X\)의 공분산, 즉 \(X\)의 분산이고, \(\text{cov}(Y, Y)\)는 \(Y\)와 \(Y\)의 공분산, 즉 \(Y\)의 분산이다. \(X\)와 \(Y\)의 공분산은 \(\text{cov}(X, Y)\)와 \(\text{cov}(Y, X)\)로 표현된다. 

따라서 공분산 행렬은 다음과 같이 계산된다.

\[
\Sigma = \begin{bmatrix}
\text{var}(X) & \text{cov}(X, Y) \\
\text{cov}(Y, X) & \text{var}(Y)
\end{bmatrix}
\]

여기서 \(\text{var}(X)\)는 \(X\)의 분산, \(\text{var}(Y)\)는 \(Y\)의 분산을 나타낸다.


이 행렬은 변수들 간의 공분산과 분산을 모두 포함하고 있으며 다변량 정규 분포에서는 공분산 행렬이 변수들 간의 상관 관계와 분산을 설명하고 다변량 정규 분포의 형태와 특성을 파악할 수 있다.

 

1. 독립적인 변수들의 경우:
   - \(X\)와 \(Y\)가 서로 독립인 경우, 공분산 행렬은 다음과 같이 된다.
   \[
   \Sigma = \begin{bmatrix}
   \sigma_X^2 & 0 \\
   0 & \sigma_Y^2
   \end{bmatrix}
   \]
   이 경우, 공분산 행렬은 대각 행렬 형태이며, 대각 성분은 각 변수의 분산을 나타낸다. 비대각 성분은 0으로, 두 변수 간의 상관 관계가 없음을 나타낸다.

2. 상관 관계가 있는 경우:
   - \(X\)와 \(Y\)가 상관 관계가 있는 경우, 공분산 행렬은 다음과 같이 된다.
   \[
   \Sigma = \begin{bmatrix}
   \sigma_X^2 & \rho \sigma_X \sigma_Y \\
   \rho \sigma_X \sigma_Y & \sigma_Y^2
   \end{bmatrix}
   \]
   이 경우, 공분산 행렬은 대각 행렬과 비대각 성분으로 이루어진다. 대각 성분은 각 변수의 분산을 나타내고, 비대각 성분은 두 변수 간의 공분산을 나타낸다. 여기서 \(\rho\)는 상관 계수이며, -1과 1 사이의 값이다. \( \rho = 1 \)이면 완전한 선형 양의 상관 관계, \( \rho = -1 \)이면 완전한 선형 음의 상관 관계를 가진다.

 

 

공분산에서 상관 계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 표준화된 지표이다. 공분산은 각 변수의 단위에 따라 크기가 달라지는 반면, 상관 계수는 -1에서 1 사이의 값으로 표준화되어 있다.

두 변수 \(X\)와 \(Y\)의 상관 계수는 다음과 같이 정의된다.

\[
\rho_{X,Y} = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y}
\]

여기서 \( \text{cov}(X, Y) \)는 \(X\)와 \(Y\)의 공분산이며, \( \sigma_X \)와 \( \sigma_Y \)는 각각 \(X\)와 \(Y\)의 표준편차이다.

상관 계수는 다음과 같은 특징을 가지고 있다.

- \( \rho_{X,Y} = 1 \)인 경우, 완전한 양의 선형 관계를 나타낸다.
- \( \rho_{X,Y} = -1 \)인 경우, 완전한 음의 선형 관계를 나타낸다.
- \( \rho_{X,Y} = 0 \)인 경우, 두 변수 간의 선형 관계가 없음을 나타낸다. 

 

 

 

 

 

 

상관계수 계산

 

 

상관계수를 구하는 공식은 공분산을 이용하여 계산된다.

 

 변수 X와 변수 Y에 대한 데이터를 각각 X와 Y로 표시한다.

2. 평균 계산: 각 변수(X와 Y)의 평균을 계산한다. 이를 위해 각 변수의 값들을 모두 더한 후 데이터의 개수로 나눈다.
   - \( \bar{X} = \frac{\sum_{i=1}^{n} X_i}{n} \)
   - \( \bar{Y} = \frac{\sum_{i=1}^{n} Y_i}{n} \)

3. 공분산 계산: 공분산은 각 데이터 쌍의 편차들의 곱의 평균이다.
   - 공분산 \( \text{cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n} \)

4. 표준편차 계산: 각 변수의 표준편차를 계산한다.
   - \( \sigma_X = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n}} \)
   - \( \sigma_Y = \sqrt{\frac{\sum_{i=1}^{n} (Y_i - \bar{Y})^2}{n}} \)

5. 상관계수 계산: 공분산을 각 변수의 표준편차로 나누어 상관계수를 계산한다.
   - \( r = \frac{\text{cov}(X, Y)}{\sigma_X \cdot \sigma_Y} \)

이렇게 계산한 상관계수 \( r \)은 -1부터 1까지의 값을 가지며, 두 변수 간의 관계의 강도와 방향을 나타낸다. 0에 가까울수록 두 변수 간의 관계가 약하며, 양의 값은 양의 관계를, 음의 값은 음의 관계를 나타낸다.

 

 

 

 

상관계수와 공분산

 

세 개의 변수 \( X_1, X_2, X_3 \)의 공분산과 상관계수

공분산의 행렬

\[
\begin{bmatrix}
\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \text{Cov}(X_1, X_3) \\
\text{Cov}(X_2, X_1) & \text{Var}(X_2) & \text{Cov}(X_2, X_3) \\
\text{Cov}(X_3, X_1) & \text{Cov}(X_3, X_2) & \text{Var}(X_3)
\end{bmatrix}
\]

공분산 행렬을 상관계수로 변환하면 이 행렬에서 대각선 요소는 각 변수의 분산을 나타내고, 비대각 요소는 각 변수 간의 상관계수를 나타낸다.

\[
\begin{bmatrix}
1 & \text{Corr}(X_1, X_2) & \text{Corr}(X_1, X_3) \\
\text{Corr}(X_2, X_1) & 1 & \text{Corr}(X_2, X_3) \\
\text{Corr}(X_3, X_1) & \text{Corr}(X_3, X_2) & 1
\end{bmatrix}
\]

실제 데이터에서 \( X_1, X_2, X_3 \) 간의 공분산이 다음과 같이 주어졌다고 가정하면

\[
\begin{align}
\text{Var}(X_1) &= 10 \\
\text{Var}(X_2) &= 20 \\
\text{Var}(X_3) &= 15 \\
\text{Cov}(X_1, X_2) &= 5 \\
\text{Cov}(X_1, X_3) &= 3 \\
\text{Cov}(X_2, X_3) &= 7 \\
\end{align}
\]

이 경우 공분산 행렬은 

\[
\begin{bmatrix}
10 & 5 & 3 \\
5 & 20 & 7 \\
3 & 7 & 15
\end{bmatrix}
\]

 상관계수로 변환하면 

\[
\begin{bmatrix}
1 & 0.307 & 0.231 \\
0.307 & 1 & 0.4 \\
0.231 & 0.4 & 1
\end{bmatrix}
\]

여기서 각 요소는 해당하는 변수들 간의 상관계수를 나타낸다.

 

고차원 변수들의 다변량 정규 분포의 공분산 행렬은 대각 행렬과 비대각 성분으로 이루어진다. 대각 성분은 각 변수의 분산을 나타내며, 비대각 성분은 변수들 간의 공분산을 나타낸다. 이를 통해 변수들 간의 관계를 파악할 수 있다.

 

 

상관관계가 없는 경우, 즉 변수들이 서로 독립적인 경우 공분산 행렬은 다음과 같이 대각 행렬 형태를 가진다.

\[
\Sigma = \begin{bmatrix}
\text{Var}(X_1) & 0 & \cdots & 0 \\
0 & \text{Var}(X_2) & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \text{Var}(X_n)
\end{bmatrix}
\]

여기서 \( \text{Var}(X_i) \)는 변수 \(X_i\)의 분산을 나타낸다.

이렇게 공분산 행렬이 대각 행렬 형태이며, 비대각 요소가 모두 0인 경우에는 각 변수들이 서로 독립적이라는 것을 의미한다. 따라서 변수들 간의 상관관계가 없음을 나타낸다.


또, 공분산 행렬을 이용하여 공분산 행렬은 변수들 간의 중요한 관계를 나타내므로, 이를 기반으로 주성분 분석(PCA)과 같은 차원 축소 기법을 적용하거나 변수 선택을 수행할 수 있다. 

따라서 공분산 행렬은 다변량 데이터 분석에서 변수들 간의 상호 작용을 이해하고 모델링하는데 중요한 도구로 활용된다.

더보기

Covariance is a statistical measure of the extent to which two variables change together. It is calculated as the average of the products of the differences between the corresponding values of the two variables and their respective means.

 

 

 
correlation coefficient
 
 
반응형