BIAS

2024. 3. 30. 23:37DATA/BIGDATA

반응형

 

 

데이터의 편향(bias)은 데이터가 주어진 상황 또는 대상을 대표하지 못하는 경향을 가리킨다. 
- 표본 선택 편향(Sampling Bias): 표본 선택 편향은 데이터를 수집할 때 특정한 특성을 가진 샘플을 고의적으로 또는 우연히 선택하는 경우 발생한다. 설문 조사를 진행할 때 특정 인구 그룹을 대상으로 선택하거나, 특정 지역에서만 데이터를 수집하는 경우 표본 선택 편향이 발생할 수 있다.

- 측정 편향(Measurement Bias): 측정 편향은 데이터를 수집하는 과정에서 측정 도구, 방법 또는 인지된 편향으로 인해 발생한다. 특정 질문이나 측정 도구를 사용할 때 특정한 응답을 유도하거나, 관찰자의 주관적인 해석에 따라 데이터가 왜곡되는 경우 측정 편향이 발생할 수 있다.

- 클래스 불균형(Class Imbalance): 클래스 불균형은 분류 문제에서 특정 클래스의 샘플 수가 다른 클래스에 비해 상대적으로 매우 적은 경우 발생한다. 이는 학습 알고리즘이 흔히 발생하지 않는 클래스를 정확하게 예측하는 데 어려움을 초래할 수 있다.

데이터의 편향은 모델의 성능을 왜곡하고 예측의 정확성을 저하할 수 있다.

데이터의 편향을 감지하고 이를 교정하는 것은 중요한 데이터 과학 및 기계 학습 작업이다.

반응형