빅데이터 분석 기반 머신러닝 자동화

변수 선택부터 모델 비교까지, 한 번의 클릭으로 자동화.

AutoGluon 기반으로 분류/회귀를 자동 결정, 적합한 평가지표를 자동 선택해서 모델을 학습합니다. 변수 중요도·Confusion Matrix·ROC 까지 한 번에 확인할 수 있습니다.

한눈에 보기

주요 활용

예측 모델 시제품 · 변수 중요도 분석 · 베이스라인 비교

결과변수

범주형(분류) 또는 수치형(회귀) 1개

엔진

AutoGluon (LightGBM · 선형 모델 등 경량 ensemble)

평가지표

분류: accuracy · precision · recall · f1 · roc_auc / 회귀: mse · mae · rmse · mape · r²

필요 데이터

CSV / XLSX, 행=샘플, 열=변수

플랜

PREMIUM 이상 플랜에서 이용 가능

데이터 준비

  1. 1정형 데이터 파일을 준비 (CSV / XLSX, 최대 30MB)
  2. 2행은 샘플, 열은 변수로 구성
  3. 3수치형·범주형 모두 가능 (범주형은 자동 인코딩)
  4. 4결과변수 1개 — 컬럼 타입과 고유값 개수에 따라 분류/회귀 자동 결정
  5. 5표본은 가능한 한 많이 (모델 학습에 유리)

분류 vs 회귀는 결과변수의 데이터 타입과 고유값 개수로 자동 결정됩니다. 결과변수가 0/1 같은 숫자라면 'Numeric → Categorical' 로 변환해야 분류로 인식됩니다.

분석 흐름

  1. 1변수 정리 + 결측치 처리 + 인코딩
  2. 2수치형 변수 분포 + 산점도 확인 (EDA)
  3. 3이상치 탐색 + 제거 기준 설정 (Z-score / IQR)
  4. 4상관계수 + VIF 기반 다중공선성 변수 제거
  5. 5Scaler 선택 (Standard / MinMax / None)
  6. 6AutoGluon 자동 학습 (problem type · eval metric 자동)
  7. 7Leaderboard 비교 + 변수 중요도 + Confusion Matrix / ROC

지원 분석

  • 변수 EDA

    수치형 분포 · 산점도 + 정규성 검정으로 변수 특성 파악

  • 이상치 탐색 + 제거

    Z-score / IQR 기준 이상치 시각화 + 사용자 조절

  • 다중공선성 제거

    상관계수 임계값 + VIF 임계값으로 중복 변수 자동 제거

  • AutoGluon 자동 학습

    경량 ensemble (LightGBM + 선형 등) 일괄 학습, Leaderboard 로 비교

  • 변수 중요도

    각 변수의 예측 기여도를 정량적으로 시각화

  • 성능 진단

    Confusion Matrix · ROC Curve · 잔차 플롯 자동 생성

활용 예시

  • 이탈 고객 예측

    행동 로그 + 결제 패턴으로 이탈 여부를 예측, 가장 영향력 있는 변수 5개 도출.

  • 주택 가격 회귀

    지역 · 면적 · 거래 시점으로 가격을 회귀하고, MAE/RMSE 로 모델 비교.

  • 이상 거래 분류

    수많은 거래 변수에서 사기 패턴을 학습. Recall 우선 평가지표 자동 적용.

결과물

  • 모델별 Leaderboard (분류: accuracy · F1 · AUC / 회귀: MAE · RMSE · R²)
  • 변수 중요도 시각화 + 표
  • Confusion Matrix · ROC Curve · Residual Plot
  • 최적 모델 다운로드 (.pkl)
  • 논문 형식 자동 생성 (전처리 → 모델링 → 결과까지)