상관계수(Correlation Coefficient)와 선형관계(Linear Relationship)

2024. 3. 17. 18:13DATA/BIGDATA

반응형

- 상관계수는 두 변수 간의 관계 강도와 방향을 측정하는 통계적 지표이다. 주어진 두 변수가 얼마나 강하게 관련되어 있는지를 나타낸다. 상관계수는 -1에서 1 사이의 값을 가지며, 0에 가까울수록 두 변수 간의 선형 관계가 약하거나 없음을 의미하고, 양수일 때는 양의 상관관계(한 변수가 증가할 때 다른 변수도 증가), 음수일 때는 음의 상관관계(한 변수가 증가할 때 다른 변수는 감소)를 나타낸다.

 

상관 계수 공식



\[ r = \frac{{\sum ((X_i - \bar{X}) \cdot (Y_i - \bar{Y}))}}{{\sqrt{\sum (X_i - \bar{X})^2} \cdot \sqrt{\sum (Y_i - \bar{Y})^2}}} \]

여기서,
- \( r \) : 상관계수
- \( X_i, Y_i \) : 각각 X와 Y의 i번째 데이터 값
- \( \bar{X}, \bar{Y} \) : 각각 X와 Y의 평균값

두 변수 간의 공분산을 각 변수의 표준편차로 나눈 것으로, 두 변수 간의 상관 정도를 나타낸다. 이 상관계수 \( r \) 은 -1부터 1까지의 값을 가지며, 0에 가까울수록 두 변수 간의 관계가 약하고, 1에 가까울수록 양의 상관관계가 강하며, -1에 가까울수록 음의 상관관계가 강함을 나타낸다.

주의할 점은 상관계수가 두 변수 간의 선형적 관계만을 측정한다는 것이다. 비선형적인 관계는 상관계수로 파악하기 어렵다.

 

 

 


- 선형관계(Linear Relationship): 선형관계는 두 변수 간의 관계가 직선 형태로 나타날 때를 의미한다. 즉, 한 변수의 값이 증가함에 따라 다른 변수의 값도 일정한 비율로 증가 또는 감소하는 관계를 가질 때 선형관계가 있다고 말할 수 있다. 상관계수가 0이 아닌 경우 두 변수 간에 선형관계가 있는 것일 수 있지만, 상관계수가 0이더라도 비선형적인 관계일 수 있다.

 

상관계수가 0이라는 것은 한 변수의 값이 변함에 따라 다른 변수의 값이 변하지 않는다는 것을 의미한다. 그러나 상관계수가 0이라고 해서 두 변수 간에 아무런 관계가 없는 것은 아니다. 비선형적인 관계가 있을 수 있다.

상관계수가 0인 경우, 두 변수 간의 산포도를 그렸을 때 점들이 어느 특정한 방향으로 뭉쳐 있는 경향이 없으며, 직선적인 패턴이 보이지 않아 두 변수 간의 관계는 선형적이지 않다. (두 변수 X와 Y가 있을 때, X와 Y 간의 관계가 X와 Y의 제곱으로 나타낼 수 있다면, 이는 비선형적인 관계이다. 이런 경우에는 상관계수가 0일 수 있다. 즉, 상관계수는 선형적인 관계만을 측정하며, 비선형적인 관계를 나타내지는 않는다.)

따라서, 상관계수가 0인 경우에는 두 변수 간에 선형적인 관계가 없다고 말할 수 있지만, 비선형적인 관계가 있을 수 있으므로 상관계수만으로는 전체적인 관계를 완전히 이해할 수는 없다.

 

 

 

 

선형 관계 이점

선형 모델은 변수 간의 선형 관계를 가정하고 이를 기반으로 모델을 구축하므로 변수 간의 관계를 단순하게 표현할 수 있기 때문에 모델링이 간편해진다.

모델의 계수(coefficient)들이 변수들 간의 관계를 명확하게 설명할 수 있다. 이는 모델의 해석성을 높이고, 변수들 간의 영향력을 직관적으로 이해할 수 있게 한다.

변수 간의 선형 관계를 고려하여 예측을 수행하므로, 새로운 데이터에 대한 예측이 상대적으로 안정적이다. 이는 실제 세계의 변화에 대응하여 모델의 일반화 능력을 향상시키는 데 도움이 된다.

변수들 간의 관계를 쉽게 파악할 수 있으므로, 변수 선택 및 설명이 용이해진다. 이를 통해 모델의 복잡성을 줄이고, 중요한 변수들을 식별하는 데 도움이 된다.

 

 

반응형

'DATA > BIGDATA' 카테고리의 다른 글

자기조직화지도(Self-Organizing Map, SOM)  (0) 2024.03.19
서열 척도 Ordinal scale와 등간 척도 Interval Scale  (0) 2024.03.19
표준정규분포  (0) 2024.03.09
MMDB  (1) 2024.02.24
(GIS) 공간 데이터에서 Vector & Raster  (0) 2024.02.24