빅데이터 분석 기반 머신러닝 자동화
변수 선택부터 모델 비교까지, 한 번의 클릭으로 자동화.
AutoGluon 기반으로 분류/회귀를 자동 결정, 적합한 평가지표를 자동 선택해서 모델을 학습합니다. 변수 중요도·Confusion Matrix·ROC 까지 한 번에 확인할 수 있습니다.
한눈에 보기
주요 활용
예측 모델 시제품 · 변수 중요도 분석 · 베이스라인 비교
결과변수
범주형(분류) 또는 수치형(회귀) 1개
엔진
AutoGluon (LightGBM · 선형 모델 등 경량 ensemble)
평가지표
분류: accuracy · precision · recall · f1 · roc_auc / 회귀: mse · mae · rmse · mape · r²
필요 데이터
CSV / XLSX, 행=샘플, 열=변수
플랜
PREMIUM 이상 플랜에서 이용 가능
데이터 준비
- 1정형 데이터 파일을 준비 (CSV / XLSX, 최대 30MB)
- 2행은 샘플, 열은 변수로 구성
- 3수치형·범주형 모두 가능 (범주형은 자동 인코딩)
- 4결과변수 1개 — 컬럼 타입과 고유값 개수에 따라 분류/회귀 자동 결정
- 5표본은 가능한 한 많이 (모델 학습에 유리)
분류 vs 회귀는 결과변수의 데이터 타입과 고유값 개수로 자동 결정됩니다. 결과변수가 0/1 같은 숫자라면 'Numeric → Categorical' 로 변환해야 분류로 인식됩니다.
분석 흐름
- 1변수 정리 + 결측치 처리 + 인코딩
- 2수치형 변수 분포 + 산점도 확인 (EDA)
- 3이상치 탐색 + 제거 기준 설정 (Z-score / IQR)
- 4상관계수 + VIF 기반 다중공선성 변수 제거
- 5Scaler 선택 (Standard / MinMax / None)
- 6AutoGluon 자동 학습 (problem type · eval metric 자동)
- 7Leaderboard 비교 + 변수 중요도 + Confusion Matrix / ROC
지원 분석
변수 EDA
수치형 분포 · 산점도 + 정규성 검정으로 변수 특성 파악
이상치 탐색 + 제거
Z-score / IQR 기준 이상치 시각화 + 사용자 조절
다중공선성 제거
상관계수 임계값 + VIF 임계값으로 중복 변수 자동 제거
AutoGluon 자동 학습
경량 ensemble (LightGBM + 선형 등) 일괄 학습, Leaderboard 로 비교
변수 중요도
각 변수의 예측 기여도를 정량적으로 시각화
성능 진단
Confusion Matrix · ROC Curve · 잔차 플롯 자동 생성
활용 예시
이탈 고객 예측
행동 로그 + 결제 패턴으로 이탈 여부를 예측, 가장 영향력 있는 변수 5개 도출.
주택 가격 회귀
지역 · 면적 · 거래 시점으로 가격을 회귀하고, MAE/RMSE 로 모델 비교.
이상 거래 분류
수많은 거래 변수에서 사기 패턴을 학습. Recall 우선 평가지표 자동 적용.
결과물
- 모델별 Leaderboard (분류: accuracy · F1 · AUC / 회귀: MAE · RMSE · R²)
- 변수 중요도 시각화 + 표
- Confusion Matrix · ROC Curve · Residual Plot
- 최적 모델 다운로드 (.pkl)
- 논문 형식 자동 생성 (전처리 → 모델링 → 결과까지)