Task : 전처리 기준 세우기 위한 EDA
1.
컬럼명 정리
공백 확인 후 공백 제거
멀티인덱스 -> 단일 컬럼명으로 합치기
df.columns = [
f"{str(a).strip()}__{str(b).strip()}"
for a, b in df.columns
]
2.
결측치 처리
공정 변수 -> 중앙값으로
불량 그룹 -> 0, 1(0 이외의 값은 전부 1로 수정)
3.
Product_type 별로 정리
박스플롯/정규분포(평균 +-3 표준편차 범위) 방식 중 선택해서 사용
IQR 제거 후 데이터 크기: (6031, 57)
정규분포 제거 후 데이터 크기: (7459, 57)
IQR 방식 Product_Type별 데이터 개수:
1 3392
2 2639
정규분포 방식 Product_Type별 데이터 개수:
1 4180
2 3279
상자는 쓸데없이 값을 많이 소거시켰다. 정규분포ㄱㄱ
실행 및 진행 사항 정리
1.
결과
논의 필요

