Task : 전처리 마무리 + EDA
기준 데이터셋은 Fully Paid , Charged Off , Default 만 필터링 & 컬럼 드랍한 데이터.
1.
특성 한글화 (슬랙 업로드 파일로 통일)
a.
2.
특성 추가 제안
# 1인신청 : 0, 2인이상 신청 : 1
df['has_co_borrower'] = (df['application_type'] == 'Joint App').astype(int)
Python
복사
has_co_borrower → 공동신청여부
3.
구조적 누락은 “-1” 로 채우기
4.
구조적 누락이 아닌 단순 누락, 결측은 드랍하기 어려울 때
새로운 컬럼을 만들어서 누락여부를 0, 1로 표시
a.
공동 신청 케이스 - 다른 신청자 데이터로 대체할수 있는가?
5.
날짜 컬럼들
a.
issue_d - earliest_cr_line = “신용거래 기간”
b.
ex)최초신용거래개설날짜 가 누락시 신용거래이력이 없음으로 생각
c.
경과 개월 수 : “0”을 어떤 의미로 해석할것인가
i.
대출 신청과 동시에 계좌개설해서 0 → 과거이력이 없어서 위험한 고객
d.
할부, 리볼빙 계좌, 금액
i.
만약 “사용률”과 “잔액/한도” 가 일치한다면 “사용률”만 남기기
•
emp_title 분류기준 아이디어 있으면 추가하기
◦
데이터셋 딕셔너리에 의하면 Employer Title replaces Employer Name for all loans listed after 9/23/2013
▪
확인결과 9/23/2013 이전에 직무명 정상기재된 경우(고용인 정보 기재)가 172891건,
직무명 누락인 경우가 11207건.
▪
•
범주형변수 인코딩
◦
라벨인코딩, one-hot 선택
주말 일정 추가
하진님 : 토 일 둘 다 가능
원혁님 : 토 일 둘 다 가능
찬휘님 : 토 일 둘 다 가능
예진님 : 일요일 5시 이후
미정님 : 토 일 둘 다 가능
2013-09-23 기준 데이터 분리 이유
•
이전 데이터는 직무명 컬럼에 사업체명이 기재.
•
직무 분류 카테고리 오염 가능성이 우려.
2013-09-23 이전 데이터 테마 (예상)
•
2007~2009 (서브프라임 금융위기)
◦
터지기 직전 6개월(?) 대출 신청 건수
▪
이 당시 개나소나 다 대출받아서 집 구매했음
◦
타 금융사 대출 규모, 금리 데이터 조사
◦
주거형태
▪
모기지 대출로 구매한 사람이 특히 많을수도?
◦
리볼빙사용률, 추심금액, 할부대출사용률, 전체신용사용률
연체금액, etc.,
•
2009년 이후
◦
금융위기 회복 과정
▪
개인경제 긴축 성향이 나타나지 않을까
▪
직업이 누락 (실직) 인 비율이 다른 시기에 비해 어떤지
•
단순 누락인지 실직상태인지 판단하긴 어렵다
▪
실행 및 진행 사항 정리
결과
