//////
Search

변수, 함수, 파일명 명세서

Tags
Archive
ETA
2025/12/22
Main Task
Sub Task
담당자
메모
상태
In progress
생성 일시
2025/12/18 02:12
우선 순위
진행률 %
Task : 전처리 기준 세우기 위한 EDA
1.
컬럼명 정리 공백 확인 후 공백 제거 멀티인덱스 -> 단일 컬럼명으로 합치기
df.columns = [
f"{str(a).strip()}__{str(b).strip()}"
for a, b in df.columns
]
2.
결측치 처리 공정 변수 -> 중앙값으로 불량 그룹 -> 0, 1(0 이외의 값은 전부 1로 수정)
3.
Product_type 별로 정리 박스플롯/정규분포(평균 +-3 표준편차 범위) 방식 중 선택해서 사용
IQR 제거 후 데이터 크기: (6031, 57) 정규분포 제거 후 데이터 크기: (7459, 57)
IQR 방식 Product_Type별 데이터 개수: 1 3392 2 2639
정규분포 방식 Product_Type별 데이터 개수: 1 4180 2 3279
상자는 쓸데없이 값을 많이 소거시켰다. 정규분포ㄱㄱ
실행 및 진행 사항 정리
1.
결과
논의 필요