2024. 4. 1. 23:44ㆍDATA/BIGDATA
표본 분산은 주어진 데이터 집합의 산포도(분산)를 측정하는 통계량이다. 표본 분산을 통해 데이터가 얼마나 평균값으로부터 퍼져 있는지를 알 수 있다.
- 데이터가 평균으로부터 얼마나 멀리 퍼져 있는지를 나타내므로, 데이터의 변동성을 측정하는 중요한 지표이다.
- 데이터가 평균값 주변에 얼마나 집중되어 있는지를 파악할 수 있다. 표본 분산이 작을수록 데이터가 평균 주변에 밀집되어 있고, 표본 분산이 클수록 데이터가 평균에서 멀리 퍼져 있다.
- 표본 분산을 통해 이상치(Outlier)를 탐지할 수 있다. 데이터가 일반적인 분포와 다른 지역에 있거나, 표준 편차보다 매우 큰 값이 존재할 때 이를 확인할 수 있다.
- 표본 분산을 사용하여 모집단의 분산을 추정할 수 있다. 표본 분산은 모집단 분산의 추정값으로 사용될 수 있다.
표본 분산은 데이터의 분포와 변동성을 이해하고 데이터의 특성을 파악하는 데 중요한 지표이다.
\[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]
- \( n \) 은 데이터의 개수
- \( x_i \) 는 각 데이터 포인트
- \( \bar{x} \) 는 데이터의 평균
표본분산은 평균과 각 데이터 포인트 간의 거리를 제곱하여 계산하므로, 평균으로부터의 거리가 멀수록 분산이 커진다. 분모가 \( n-1 \)인 이유는 자유도를 보정하기 위함이다. 이 보정은 표본분산이 모집단의 분산을 더 정확하게 추정할 수 있도록 한다.
'DATA > BIGDATA' 카테고리의 다른 글
검정통계량(test statistic) (0) | 2024.04.04 |
---|---|
Yeo-Johnson 변환(Yeo-Johnson Transformation) (0) | 2024.04.03 |
베르누이 분포의 확률 질량 함수 (0) | 2024.04.01 |
기하 분포의 확률 질량 함수 (0) | 2024.04.01 |
포아송 분포(Poisson distribution) (1) | 2024.04.01 |