2024. 3. 31. 17:47ㆍDATA/BIGDATA
머신러닝에서 교호작용(interaction)을 다루는 방법 중 하나는 특징 공학(feature engineering)을 통해 교호작용 항(interaction term)을 만드는 것이다.
교호작용 항은 기존의 특징(독립 변수)들 간의 조합을 통해 새로운 특징을 생성하는 것이다.
모든 가능한 교호작용을 고려하는 것은 계산적으로 부담스러울 수 있으며, 불필요한 과대적합(overfitting)을 유발할 수 있어 주의있게 사용해야한다. 데이터를 분석하고 이해하는 과정을 통해 어떤 특성이 중요하고 어떤 특성이 불필요한지를 파악하고 모델의 복잡성을 줄이기 위해 가장 유용한 특성만을 선택해야한다. 불필요한 특성을 제거하여 모델의 성능을 향상시키고 원본 데이터로부터 새로운 특성을 추출하거나 변환하여 새로운 의미 있는 정보를 추출해야한다. 주성분 분석(PCA), 텍스트에서의 TF-IDF 변환 등이 이에 해당한다.
ex>
- 데이터셋에는 주택 가격에 영향을 미치는 다양한 특성이 포함되어 있다.
- 주택 가격은 집 크기와 우편번호(지역)에 영향을 받는다고 가정한다.
- 그러나 지역에 따라 집 크기와 가격의 관계가 달라질 수 있다.
1. 주택 가격에 영향을 미치는 주요 특성들을 선택한다.
2. 교호작용을 고려하여 새로운 특성을 만든다.
3. 선형 회귀 모델에 이러한 새로운 특성을 추가하여 교호작용을 고려한 모델을 생성한다.
1. 데이터의 주요 특성 선택:
- 집 크기: \(X_1\)
- 우편번호(지역): \(X_2\)
- 주택 가격: \(y\)
2. 교호작용 특성 생성:
- 집 크기와 우편번호의 교호작용 항 추가: \(X_{1} \times X_{2}\)
3. 선형 회귀 모델 구축:
- 다음과 같은 모델을 고려한다:
\[ y = \beta_0 + \beta_1 \times X_1 + \beta_2 \times X_2 + \beta_{12} \times (X_1 \times X_2) + \epsilon \]
- \( \beta_{12} \)는 주택 가격에 대한 집 크기와 우편번호의 교호작용 효과를 나타낸다.
이렇게 하면 선형 회귀 모델은 주택 가격이 집 크기와 우편번호뿐만 아니라 두 특성의 교호작용에도 영향을 받는다는 것을 고려할 수 있다.
'DATA > BIGDATA' 카테고리의 다른 글
앙상블 Ensemble method (0) | 2024.03.31 |
---|---|
TF-IDF 변환 Transform Frequency-Inverse Document Frequency (0) | 2024.03.31 |
선형 회귀 모델에서 교호작용 (0) | 2024.03.31 |
엘보우 실루엣 (0) | 2024.03.31 |
BIAS (0) | 2024.03.30 |