표본 분산(Sample Variance)

2024. 4. 1. 23:44DATA/BIGDATA

반응형

 

 

 

표본 분산은 주어진 데이터 집합의 산포도(분산)를 측정하는 통계량이다. 표본 분산을 통해 데이터가 얼마나 평균값으로부터 퍼져 있는지를 알 수 있다. 


- 데이터가 평균으로부터 얼마나 멀리 퍼져 있는지를 나타내므로, 데이터의 변동성을 측정하는 중요한 지표이다.

- 데이터가 평균값 주변에 얼마나 집중되어 있는지를 파악할 수 있다. 표본 분산이 작을수록 데이터가 평균 주변에 밀집되어 있고, 표본 분산이 클수록 데이터가 평균에서 멀리 퍼져 있다.
- 표본 분산을 통해 이상치(Outlier)를 탐지할 수 있다. 데이터가 일반적인 분포와 다른 지역에 있거나, 표준 편차보다 매우 큰 값이 존재할 때 이를 확인할 수 있다.
- 표본 분산을 사용하여 모집단의 분산을 추정할 수 있다. 표본 분산은 모집단 분산의 추정값으로 사용될 수 있다.


 표본 분산은 데이터의 분포와 변동성을 이해하고 데이터의 특성을 파악하는 데 중요한 지표이다.

 

\[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]


- \( n \) 은 데이터의 개수
- \( x_i \) 는 각 데이터 포인트
- \( \bar{x} \) 는 데이터의 평균

표본분산은 평균과 각 데이터 포인트 간의 거리를 제곱하여 계산하므로, 평균으로부터의 거리가 멀수록 분산이 커진다. 분모가 \( n-1 \)인 이유는 자유도를 보정하기 위함이다. 이 보정은 표본분산이 모집단의 분산을 더 정확하게 추정할 수 있도록 한다.

반응형