2024. 7. 15. 23:37ㆍDATA/BIGDATA
Training Data Set에 있는 속성의 값이 scale이 심하게 차이나는 경우, 이를 보정하여 학습을 진행하는 것을 데이터 정규화(Normalization) 혹은 데이터 스케일링(Scaling)이라고 한다.
데이터 정규화는 방법
1. 표준화(Standardization): 각 속성의 값에서 평균을 빼고, 표준편차로 나누어 정규분포를 따르도록 만드는 방법이다. 이는 주로 데이터가 정규분포를 따를 때 사용된다.
\[ x' = \frac{x - \mu}{\sigma} \]
여기서 \( x' \)는 표준화된 값, \( x \)는 원래 값, \( \mu \)는 평균, \( \sigma \)는 표준편차이다.
2. 정규화(Normalization): 각 속성의 값을 최소값과 최대값 사이의 범위로 변환하여 0과 1 사이의 값으로 만드는 방법이다. 이는 데이터가 균등하게 분포될 때 유용한다.
\[ x' = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)} \]
여기서 \( x' \)는 정규화된 값, \( x \)는 원래 값, \( \text{min}(x) \)는 최소값, \( \text{max}(x) \)는 최대값이다.
정규화나 스케일링을 통해 데이터의 scale을 조정하면, 각 속성이 동등하게 중요하게 고려되도록 하고, 학습 알고리즘이 더 잘 수렴하도록 돕는다.
'DATA > BIGDATA' 카테고리의 다른 글
표본상관계수 (0) | 2024.09.04 |
---|---|
MNIST 를 학습하고 예측하는 코드 (0) | 2024.07.15 |
Cross Entropy (크로스 엔트로피) (0) | 2024.07.15 |
로지스틱 회귀(Logistic Regression) (0) | 2024.07.15 |
퍼셉트론이 AND 연산을 수행하는 방법 (0) | 2024.07.15 |