머신러닝 ML 분류 예측

2024. 9. 20. 00:15AI

반응형

 머신러닝은 데이터에서 패턴이나 규칙을 학습하여, 새로운 데이터에 대해 예측하거나 결정을 내리는 과정에 중점을 두고 주어진 데이터셋에서 패턴, 관계, 규칙 등을 학습한다. 모델이 학습한 규칙이나 패턴을 바탕으로, 새로운 데이터에 대해 예측하거나 분류를 수행한다. 

 

 랜덤 포레스트와 서포트 벡터 머신(SVM)은 모두 데이터의 패턴을 학습하여 분류 문제에서 더 정확한 예측을 하기 위해 결정 경계를 찾는다. 이 결정 경계는 데이터 포인트들을 서로 다른 클래스(또는 레이블)로 구분하는 선이나 면이다. 

 

랜덤 포레스트 (Random Forest)

 

랜덤 포레스트는 여러 개의 결정 트리를 사용하여 예측을 수행하며 각 결정 트리는 다음과 같은 방식으로 결정 경계를 찾는다:

  • 결정 트리: 결정 트리는 데이터를 분할하여 결정 경계를 형성한다. 각 노드는 특정 피처를 기준으로 데이터를 두 그룹으로 나누며, 이 과정을 반복하여 최종적으로 클래스 레이블을 예측한다.
  • 앙상블: 랜덤 포레스트는 여러 개의 결정 트리를 학습시키고, 각 트리의 예측을 집계하여 최종 예측을 수행한다. 이렇게 함으로써, 다양한 결정 경계를 평균화하고 과적합을 방지하여 더 안정적이고 정확한 예측을 할 수 있다.

 

  • 랜덤 포레스트는 여러 개의 결정 트리(Decision Trees)를 기반으로 하는 앙상블 학습 방법이다. 각 결정 트리는 훈련 데이터의 랜덤 서브셋을 사용하여 학습하며, 최종 예측은 모든 결정 트리의 예측을 집계하여 결정된다.

장점:

  • 높은 정확도: 여러 개의 트리를 사용하는 앙상블 방식으로 높은 예측 정확도를 자랑한다.
  • 과적합 방지: 여러 결정 트리를 사용하여 과적합(overfitting)을 방지하는 데 도움이 된다.
  • 다양한 데이터 유형: 범주형 데이터와 연속형 데이터 모두에 효과적으로 적용할 수 있다.

단점:

  • 모델 해석: 개별 트리는 해석이 쉬우나, 여러 트리를 사용하는 랜덤 포레스트는 해석하기 어렵다.
  • 메모리 및 계산 자원: 많은 수의 결정 트리를 사용하므로 메모리와 계산 자원을 많이 사용할 수 있다.

 

 

서포트 벡터 머신 (Support Vector Machine, SVM)

 

서포트 벡터 머신은 두 클래스 간의 최적의 결정 경계를 찾는 데 초점을 맞춘 알고리즘이다. 이 결정 경계는 두 클래스 간의 마진(margin)을 최대화하도록 학습된다. 비선형 문제를 해결하기 위해 커널 트릭(kernel trick)을 사용할 수도 있다.

  • 선형 SVM: 기본적으로, SVM은 두 클래스 간의 최적의 선형 결정 경계를 찾다. 이 결정 경계는 두 클래스 사이의 마진(margin)을 최대화하는 방식으로 설정된다. 마진이란 두 클래스 사이의 가장 가까운 데이터 포인트들 사이의 거리이다.
  • 비선형 SVM: 데이터가 비선형적으로 분리되어 있을 경우, 커널 함수를 사용하여 고차원 공간으로 데이터를 변환한 후, 선형 결정 경계를 찾는다. 이 과정에서 비선형 결정 경계를 형성할 수 있다.

장점:

  • 고차원 데이터: 고차원 데이터에 대해 잘 작동한다.
  • 효과적인 비선형 분류: 커널 함수를 사용하여 비선형 분류 문제를 해결할 수 있다.
  • 과적합 방지: 마진 최대화로 인해 과적합을 방지할 수 있다.

단점:

  • 대규모 데이터셋: 대규모 데이터셋에 대해 학습 시간이 오래 걸릴 수 있다.
  • 매개변수 조정: 하이퍼파라미터 조정이 필요하여 모델 튜닝이 복잡할 수 있다.

 

 

예측 성공률 비교

  • 랜덤 포레스트는 일반적으로 다양한 문제에 대해 높은 예측 정확도를 제공하며, 데이터의 전처리 및 하이퍼파라미터 조정이 상대적으로 간단한다.
  • 서포트 벡터 머신은 특히 고차원 데이터나 비선형 문제에서 우수한 성능을 발휘할 수 있다. 그러나, 대규모 데이터셋에 대한 학습 속도가 느릴 수 있으며, 하이퍼파라미터 튜닝이 중요하다.

 

반응형

'AI' 카테고리의 다른 글

출력층과 활성화 함수 종류  (1) 2024.09.30
1.x TensorFlow 텐서 선언 방법  (0) 2024.09.24
Rule-based | Data-driven 접근법  (0) 2024.08.26
AND gate  (0) 2024.08.26
임베딩(embedding)  (0) 2024.08.17