정규화(Normalization)

2024. 7. 15. 23:37DATA/BIGDATA

반응형

 

 

 

 

Training Data Set에 있는 속성의 값이 scale이 심하게 차이나는 경우, 이를 보정하여 학습을 진행하는 것을 데이터 정규화(Normalization) 혹은 데이터 스케일링(Scaling)이라고 한다.

데이터 정규화는 방법
1. 표준화(Standardization): 각 속성의 값에서 평균을 빼고, 표준편차로 나누어 정규분포를 따르도록 만드는 방법이다. 이는 주로 데이터가 정규분포를 따를 때 사용된다.
   

   \[ x' = \frac{x - \mu}{\sigma} \]
   여기서 \( x' \)는 표준화된 값, \( x \)는 원래 값, \( \mu \)는 평균, \( \sigma \)는 표준편차이다.

2. 정규화(Normalization): 각 속성의 값을 최소값과 최대값 사이의 범위로 변환하여 0과 1 사이의 값으로 만드는 방법이다. 이는 데이터가 균등하게 분포될 때 유용한다.
   
 
   \[ x' = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)} \]
   여기서 \( x' \)는 정규화된 값, \( x \)는 원래 값, \( \text{min}(x) \)는 최소값, \( \text{max}(x) \)는 최대값이다.

정규화나 스케일링을 통해 데이터의 scale을 조정하면, 각 속성이 동등하게 중요하게 고려되도록 하고, 학습 알고리즘이 더 잘 수렴하도록 돕는다.

 

반응형