/////
Search

12-23 회의

Tags
Archive
ETA
2025/12/23
Main Task
Sub Task
담당자
메모
상태
In progress
생성 일시
2025/12/22 13:13
우선 순위
진행률 %
Task : 전처리 마무리 + EDA

기준 데이터셋은 Fully Paid , Charged Off , Default 만 필터링 & 컬럼 드랍한 데이터.

1.
특성 한글화 (슬랙 업로드 파일로 통일)
a.
2.
특성 추가 제안
# 1인신청 : 0, 2인이상 신청 : 1 df['has_co_borrower'] = (df['application_type'] == 'Joint App').astype(int)
Python
복사
has_co_borrower공동신청여부
3.
구조적 누락은 “-1” 로 채우기
4.
구조적 누락이 아닌 단순 누락, 결측은 드랍하기 어려울 때 새로운 컬럼을 만들어서 누락여부를 0, 1로 표시
a.
공동 신청 케이스 - 다른 신청자 데이터로 대체할수 있는가?
5.
날짜 컬럼들
a.
issue_d - earliest_cr_line = “신용거래 기간”
b.
ex)최초신용거래개설날짜 가 누락시 신용거래이력이 없음으로 생각
c.
경과 개월 수 : “0”을 어떤 의미로 해석할것인가
i.
대출 신청과 동시에 계좌개설해서 0 → 과거이력이 없어서 위험한 고객
d.
할부, 리볼빙 계좌, 금액
i.
만약 “사용률”과 “잔액/한도” 가 일치한다면 “사용률”만 남기기
emp_title 분류기준 아이디어 있으면 추가하기
데이터셋 딕셔너리에 의하면 Employer Title replaces Employer Name for all loans listed after 9/23/2013
확인결과 9/23/2013 이전에 직무명 정상기재된 경우(고용인 정보 기재)가 172891건, 직무명 누락인 경우가 11207건.
범주형변수 인코딩
라벨인코딩, one-hot 선택

주말 일정 추가

하진님 : 토 일 둘 다 가능
원혁님 : 토 일 둘 다 가능
찬휘님 : 토 일 둘 다 가능
예진님 : 일요일 5시 이후
미정님 : 토 일 둘 다 가능

2013-09-23 기준 데이터 분리 이유

이전 데이터는 직무명 컬럼에 사업체명이 기재.
직무 분류 카테고리 오염 가능성이 우려.

2013-09-23 이전 데이터 테마 (예상)

2007~2009 (서브프라임 금융위기)
터지기 직전 6개월(?) 대출 신청 건수
이 당시 개나소나 다 대출받아서 집 구매했음
타 금융사 대출 규모, 금리 데이터 조사
주거형태
모기지 대출로 구매한 사람이 특히 많을수도?
리볼빙사용률, 추심금액, 할부대출사용률, 전체신용사용률 연체금액, etc.,
2009년 이후
금융위기 회복 과정
개인경제 긴축 성향이 나타나지 않을까
직업이 누락 (실직) 인 비율이 다른 시기에 비해 어떤지
단순 누락인지 실직상태인지 판단하긴 어렵다
실행 및 진행 사항 정리
결과