Yeo-Johnson 변환(Yeo-Johnson Transformation)

2024. 4. 3. 13:47DATA/BIGDATA

반응형

 

 

Yeo-Johnson 변환(Yeo-Johnson Transformation)은 데이터의 분포를 정규 분포에 가깝게 만들기 위해 사용되는 데이터 변환 기법 중 하나이다. 이 방법은 Box-Cox 변환의 확장으로 생각할 수 있다. 

Box-Cox 변환은 양수 데이터에만 적용할 수 있지만, Yeo-Johnson 변환은 음수 값이나 0을 포함하는 데이터에도 적용할 수 있다.

Yeo-Johnson 변환은 다음과 같은 공식으로 정의된다:

\[
y_i^{(\lambda)} = 
\begin{cases}
\left(\frac{y_i + 1}{\lambda}\right)^{\lambda} - 1 & \text{if } \lambda \neq 0, y_i \geq 0 \\
\ln{(y_i + 1)} & \text{if } \lambda = 0, y_i \geq 0 \\
-\left(\frac{-y_i + 1}{2-\lambda}\right)^{2-\lambda} + 1 & \text{if } \lambda \neq 2, y_i < 0 \\
-\ln{(-y_i + 1)} & \text{if } \lambda = 2, y_i < 0
\end{cases}
\]

여기서:
- \(y_i\)는 변환되기 전의 개별 데이터 포인트이다.
- \(\lambda\)는 변환 파라미터로, 이 값을 통해 변환의 형태를 조절할 수 있다.
- \(y_i^{(\lambda)}\)는 변환된 데이터 포인트이다.

주어진 데이터에 대해 Yeo-Johnson 변환은 다음 단계를 따릅니다:
1. 모든 값이 양수인지 확인하고, 필요하다면 필요한 경우에 대한 작은 상수를 추가하여 모든 값이 양수가 되도록 조정한다.
2. 각 값에 대해 변환 파라미터 \(\lambda\)를 결정한다.
3. 주어진 공식에 따라 각 데이터 포인트를 변환한다.

Yeo-Johnson 변환은 주로 선형 회귀 및 로지스틱 회귀와 같은 머신러닝 모델에서 종속 변수의 정규성을 향상시키고 예측 성능을 향상시키는 데 사용된다.

반응형