1. 문제 정의 및 목표 설정
문제 파악
•
현재 상황 이해
•
발생하는 문제 구체화
•
해결 방안
질문 설정
•
메인
•
서브
분석 목표 & KPI
•
목표
•
KPI
•
Metrics
2. 데이터 파악
구조 파악
특성이 갖는 의미 이해
데이터타입
특성 별 분포 확인
3. 전처리
클리닝
중복 방지
타입 변환 및 통일
특성 이름 변환 및 통일
단위 통일
데이터 통합
통합 후 중복 방지
결측치
결측치 관찰
제거 방법은?
만약 삭제 대신 대체한다면 어떻게?
이상치
명확하게 잘못 적재된 데이터 처리 (금액이 음수, 날짜 2040년)
기준 설정
Feature Engineering
4. EDA
5. 가설 검정
H0 & H1
alpha
전제조건 체크
테스트 실행
p-val
6. 모델링
Supervised or Unsupervised?
Metrics
Workflow
1.
Load data
2.
Preprocessing
3.
Split
4.
Scaling
5.
Fit
6.
Evaluation
7.
Optimization
8.
Prediction & Insight
7. 인사이트 도출
•
프로젝트 목적, 목표에 부합하게
•
액션 도출
