데이터 분석 모델 평가

2024. 1. 11. 14:56DATA/BIGDATA

반응형

분석 4단계 
탐색 EDA exploratory data analysis 그래프, 평균, 편차 같은 통계적 지표를 활용하여 데이터에 대한 이해를 높인 후 데이더 전처리를 한다. 전처리가 완료된 데이터를 회귀 분석, 분류분석 등 다양한 머신러닝 기법을 활용하여 분석모델링을한다. 그 후 모델에 맞는 평가지표로 모델평가를 한다. 한 번에 적절한 분석 모델을 만들 수 없기 때문에 4단계를 비순차적으로 검토해야한다.
 
 
분석 모델링 단계에서 전체 데이터를 학습, 테스트 데이터로 나눈 후 학습 데이터를 머신러닝 모델에 적용하여 분석 모델을 만든다. 그리고 테스트 데이터를 분석 모델에 적용하여 평가 단계에 활용한다.
 
머신러닝은 지도,비지도 학습과 강화 학습으로 나누어진다. 
지도 학습은 정답을 알려주며 학습하는 방법으로 회귀분석과 분류분석이 있다. 
염색체의 xx xy 같이 정답이 포함되어 있는 데이터를 학습하여 성별을 예측하는 모델을 만드는 것이 지도 학습이다.
예측하고자 하는 변수의 타입이 연속인 경우 회귀분석범주형인 경우 분류분석을 적용한다.
 
비지도학습은 정답을 알려주지 않고 학습하는 군집분석이 있다. 쇼핑몰 마케팅 대상의 고객군을 분류하는 기준이 없을 때 고객의 기존 구매 특성의 유사성과 이질성을 기반으로 고객군을 군집화 하여 타켓을 찾을 수 있다.
또 데이터의 분포나 변수 타입에 따라 적용 가능한 머신러닝이 달라진다.
 
 
학습 데이터 활용하여 만든 분석모델이 테스트 데이터를 적용하여 분석 모델의 정확도를 평가하는 단계이다.
회귀분석과 분류분석과 같은 지도학습의 경우 테스트 데이터 속에 정답이 포함되어 있기 때문에 모델을 통해 에측한 값과 실제 정답을 비교하여 정확도를 평가할 수 있다.
 
예측값이 연속형 타입인 회귀분석 모델의 경우 MSE MAE R-Squared 등을 평가지표로 활용한다.
MSE MAE 는 예측값과 실제값의 차이를 기반으로 산출되기 때문에 작을수록 좋은 예측모델이지만 단위나 절대적 크기의 영향을 많이 받기 때문에 여러 모델을 직관적으로 비교하기는 어렵다. 그래서 결정계수를 이용하여 변동량 중에서 분석모델이 설명 가능한 비율을 의미하는 값으로 0에서 1사이의 값을 부여한다. 1에 가까울수록 좋은 모델이다.
 
예측 값이 범주형 타입인 분류분석 모델의 평가지표에는 Precision Recall Accuracy  F1-Score가 있다.  분류 목적에 따라 모델 정확도도 중요하지만 분류 오류의 위험도를 함께 고려해야하는 경우에는 FPR,ROC-curve가 지표로 활용된다.

반응형

'DATA > BIGDATA' 카테고리의 다른 글

기업의 데이터와 수집 관리  (0) 2024.02.24
방향과 백터  (0) 2024.02.17
K means clustering  (1) 2024.02.11
논리와 추론  (0) 2024.02.07
휴리스틱 탐색  (0) 2024.02.02