2024. 4. 4. 01:18ㆍDATA/BIGDATA
검정통계량은 표본 데이터로부터 계산되며 관심을 가지고 있는 모집단의 파라미터에 대한 가설을 통계적 검정하기 위해 샘플 데이터로부터 파라미터의 값을 추정하고, 표본 데이터의 관찰값과 기대값 간의 차이 값을 비교하여 가설을 검정하는 데 사용된다.
유의수준보다 검정통계량의 값이 크면 귀무가설을 기각하게 된다.
eg.
사람의 평균 수명을 알아보기 위해 사망자 100명을 표본으로 추출하여 조사하였더니 평균72.4년으로 나타났다.
모표준편차를 12년으로 가정 할 때, 현재의 평균 수명은 70년 보다 길다고 할 수 있는가를 검정하라 (유의수준a = 0.05)
- 주어진 문제는 평균수명이 70년보다 길다고 주장할 수 있는지를 가설 검정하는 것
- 귀무가설(Null Hypothesis, H0): 평균수명이 70년이다. (μ = 70)
- 대립가설(Alternative Hypothesis, H1): 평균수명이 70년보다 길다. (μ > 70)
이 문제에서는 모집단의 표준편차를 알고 있으므로 Z-검정을 사용할 수 있다.
\[ Z = \frac{{\bar{X} - \mu}}{{\frac{\sigma}{\sqrt{n}}}} \]
- \(\bar{X}\)는 샘플의 평균 (72.4)
- \(\mu\)는 귀무가설에서 설정한 모평균 (70)
- \(\sigma\)는 모집단의 표준편차 (12)
- \(n\)은 샘플의 크기 (100), - 유의수준(α): 0.05
\[ Z = \frac{{72.4 - 70}}{{\frac{12}{\sqrt{100}}}} = \frac{{2.4}}{{1.2}} = 2 \]
검정 통계량 계산
Z-검정을 사용하여 검정 통계량을 계산
\[ Z = \frac{{\bar{X} - \mu}}{{\frac{\sigma}{\sqrt{n}}}} \]
\[ Z = \frac{{72.4 - 70}}{{\frac{12}{\sqrt{100}}}} = \frac{{2.4}}{{1.2}} = 2 \]
Z-값이 2에 해당하는 누적 확률은 약 0.9772이다.
from scipy.stats import norm
z_value=2
cumulative_prob=norm.cdf(z_value)
print(f"z값 2에 대한 누적확률:{cumulative_prob:.4f}")
유의수준 0.05에서 단측 검정의 기각값(Z-critical)은 약 1.645이다.
- Z-값이 2로, 이는 기각값 1.645보다 크기 때문에 귀무가설을 기각할 충분한 증거가 있으며 평균 수명이 70년보다 길다고 주장할 수 있다.
'DATA > BIGDATA' 카테고리의 다른 글
hadoop 환경 설정 (0) | 2024.05.20 |
---|---|
무작위 표본 추출 인위적 표본 추출 (0) | 2024.04.05 |
Yeo-Johnson 변환(Yeo-Johnson Transformation) (0) | 2024.04.03 |
표본 분산(Sample Variance) (0) | 2024.04.01 |
베르누이 분포의 확률 질량 함수 (0) | 2024.04.01 |