BIAS
2024. 3. 30. 23:37ㆍDATA/BIGDATA
반응형
데이터의 편향(bias)은 데이터가 주어진 상황 또는 대상을 대표하지 못하는 경향을 가리킨다.
- 표본 선택 편향(Sampling Bias): 표본 선택 편향은 데이터를 수집할 때 특정한 특성을 가진 샘플을 고의적으로 또는 우연히 선택하는 경우 발생한다. 설문 조사를 진행할 때 특정 인구 그룹을 대상으로 선택하거나, 특정 지역에서만 데이터를 수집하는 경우 표본 선택 편향이 발생할 수 있다.
- 측정 편향(Measurement Bias): 측정 편향은 데이터를 수집하는 과정에서 측정 도구, 방법 또는 인지된 편향으로 인해 발생한다. 특정 질문이나 측정 도구를 사용할 때 특정한 응답을 유도하거나, 관찰자의 주관적인 해석에 따라 데이터가 왜곡되는 경우 측정 편향이 발생할 수 있다.
- 클래스 불균형(Class Imbalance): 클래스 불균형은 분류 문제에서 특정 클래스의 샘플 수가 다른 클래스에 비해 상대적으로 매우 적은 경우 발생한다. 이는 학습 알고리즘이 흔히 발생하지 않는 클래스를 정확하게 예측하는 데 어려움을 초래할 수 있다.
데이터의 편향은 모델의 성능을 왜곡하고 예측의 정확성을 저하할 수 있다.
데이터의 편향을 감지하고 이를 교정하는 것은 중요한 데이터 과학 및 기계 학습 작업이다.
반응형
'DATA > BIGDATA' 카테고리의 다른 글
선형 회귀 모델에서 교호작용 (0) | 2024.03.31 |
---|---|
엘보우 실루엣 (0) | 2024.03.31 |
Jaccard Distance (0) | 2024.03.28 |
t 통계량과 F 통계량을 분석함으로써 알고자하는 결과 (0) | 2024.03.27 |
ROC(Receiver Operating Characteristic) (0) | 2024.03.27 |