Task :
12/19
1.
예측에 영향이 없는 미래시점 정보를 담는 컬럼은
처음부터 배제해보는 방법 고려
ex) 연체 이후 경과 개월 수
A. 배제하기
2.
Data Leakage 위험이 있는 컬럼 미리 배제?
a.
1번 질문과 동일한 맥락으로 배제
3.
결측치가 대부분인 컬럼
a.
과감하게 버리기 (안 버린거 vs 버린거 비교는 가능)
b.
대체로 50% 이상 null → 배제하는게 일반적
4.
직업명, 근속연수 결측치 처리 방법?
emp_title 167002
emp_length 146940
Python
복사
•
대출 상환 상태도 같이 관찰해서 확인
•
둘다 null
•
하나만 null
•
대체 !!!BUT!!! “Unknown”으로 대체
•
truck driver, road driver, driver, service manager, IT manager, etc.,
◦
카테고리화 기준을 직접 생각해서 설정하고 단순작업은 HELPME AI
◦
12/22
1.
(전체 데이터)
날짜 정보가 nan인 경우 어떻게 대체하는게 좋을지 모르겠어요..
만약 1인신청이라서 nan이라면 1인신청자 정보로 대체
(1인 신청 경우)
합산 소득 증명 여부를 나타내는 컬럼입니다.
2인 신청 데이터에선 세가지로 분류되는데
1인 신청 데이터 특성상 합산소득이 없습니다.
실행 및 진행 사항 정리
결과


