표본 분산(Sample Variance)

표본 분산(Sample Variance)

2024. 4. 1. 23:44ㆍDATA/BIGDATA

표본 분산은 주어진 데이터 집합의 산포도(분산)를 측정하는 통계량이다. 표본 분산을 통해 데이터가 얼마나 평균값으로부터 퍼져 있는지를 알 수 있다.

- 데이터가 평균으로부터 얼마나 멀리 퍼져 있는지를 나타내므로, 데이터의 변동성을 측정하는 중요한 지표이다.

- 데이터가 평균값 주변에 얼마나 집중되어 있는지를 파악할 수 있다. 표본 분산이 작을수록 데이터가 평균 주변에 밀집되어 있고, 표본 분산이 클수록 데이터가 평균에서 멀리 퍼져 있다.
- 표본 분산을 통해 이상치(Outlier)를 탐지할 수 있다. 데이터가 일반적인 분포와 다른 지역에 있거나, 표준 편차보다 매우 큰 값이 존재할 때 이를 확인할 수 있다.
- 표본 분산을 사용하여 모집단의 분산을 추정할 수 있다. 표본 분산은 모집단 분산의 추정값으로 사용될 수 있다.

표본 분산은 데이터의 분포와 변동성을 이해하고 데이터의 특성을 파악하는 데 중요한 지표이다.

\[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]

- \( n \) 은 데이터의 개수
- \( x_i \) 는 각 데이터 포인트
- \( \bar{x} \) 는 데이터의 평균

표본분산은 평균과 각 데이터 포인트 간의 거리를 제곱하여 계산하므로, 평균으로부터의 거리가 멀수록 분산이 커진다. 분모가 \( n-1 \)인 이유는 자유도를 보정하기 위함이다. 이 보정은 표본분산이 모집단의 분산을 더 정확하게 추정할 수 있도록 한다.

'DATA > BIGDATA' 카테고리의 다른 글

검정통계량(test statistic) (0)	2024.04.04
Yeo-Johnson 변환(Yeo-Johnson Transformation) (0)	2024.04.03
베르누이 분포의 확률 질량 함수 (0)	2024.04.01
기하 분포의 확률 질량 함수 (0)	2024.04.01
포아송 분포(Poisson distribution) (1)	2024.04.01

JJ의메모장

JJ의메모장

태그

최근글

댓글

공지사항

아카이브

'DATA > BIGDATA' 카테고리의 다른 글

관련글

티스토리툴바