Task : 프로젝트 문제 정의, 일정, 규칙
해보고 싶은 주제 적어보기
•
구예진 (기본 주제 빼고 생각했습니다)
◦
그동안의 경제 상황과 연결지어 분석하고, 앞으로 경제 위기가 닥쳤을 때 어떤 직업군이나 소득 구간의 사람이 부도가 나는지 예측 → 어떻게 대처할지 제안
◦
대출 목적별로 부도 가능성을 예측 → 어떻게 대처할지 제안
◦
주요 컬럼
▪
pub_rec (신용관련 부정적 지표 받은 횟수) → 누가 파산할 가능성이 높은지 확인할 때의 지표
▪
pub_rec_bankrupties (파산 횟수) → 누가 파산할 가능성이 높은지 확인할 때의 지표
이하진
이원혁
안영준
대출 신청 시기와 과거 금융이력, 대출 목적이 채무 상환 여부와 관련이 있는가
오전 회의 브레인스토밍 내용
•
차주의 채무불이행 여부 관찰해서 부실 비율을 훑어봤음.
연도별로 부실 비율 관찰 → 어떻게 부실 비율을 낮출지
모델 선정시 미탐지 비율을 중점적으로 보기
그런데 잠재 고객을 놓치지 않는 균형점 찾아보기
•
대출기간 기준으로 부실률 관찰해보기
•
대출기간과 모기지대출 연관성 알아보기
•
자체 신용등급 vs FICO신용점수
인원 나눠서 탐색해보고 비교
grade, sub_grade | FICO
[분석 후 전략 제안]
경기가 좋을때는
상환확률이 높아보이는 고객은 금리 혜택 정책 고려
경기가 안좋을때는
상환확률이 낮아보이는 고객 승인을 줄여서 손실 최소화
규칙
패키지 버젼 통일
•
python : 3.14
•
pandas 2.3.3
•
컬럼별로 값 타입 확인 및 통일 (데이터 로드시 에러 방지 목적)
•
Fully Paid → 0, Charged Off, Default → 1
◦
아쉽지만 다른 카테고리들은.. 다음기회에
◦
발표자료 준비 과정에서 다룰 수도?
•
모델 예측확률을 리스크로 표현
컬럼 선택
미래시점 정보를 담는 컬럼은
처음부터 배제
Data Leakage 위험이 있는 컬럼 미리 배제는 OK
드랍 이후 104개
member_id
id | null 多 | |
url | 의미 중복 | |
desc | null 多 | |
title | 의미 중복 | purpose 와 같은 정보 |
zip_code | 필요 x | |
addr_state | 필요 x | |
hardship_flag
hardship_type
hardship_reason
hardship_status
hardship_amount
hardship_start_date
hardship_end_date
hardship_length
hardship_dpd
hardship_loan_status
hardship_last_payment_amount
deferral_term
payment_plan_start_date
hardship_payoff_balance_amount | ‘hardship_flag’ 또한 ‘대출 절차 이후’ 정보라서 날림 | |
last_credit_pull_d
last_fico_range_high
last_fico_range_low
last_pymnt_d
last_pymnt_amnt | ‘대출 절차 이후’ 정보라서 날림 | |
total_pymnt
total_pymnt_inv
total_rec_prncp
total_rec_int
total_rec_late_fee | tot_hi_cred_lim 보류
total_rev_hi_lim 보류 | |
debt_settlement_flag
debt_settlement_flag_date
settlement_status
settlement_date
settlement_amount
settlement_percentage
settlement_term | settlement(분쟁합의 느낌) ‘대출 절차 이후’ 정보라서 날림 | |
orig_projected_additional_accrued_interest | ||
disbursement_method | ||
inq_last_6mths
inq_last_12m
sec_app_inq_last_6mths
sec_app_mths_since_last_major_derog | 보류
혹시 삭제했다면 롤백해주세요
| |
out_prncp
out_prncp_inv | ||
recoveries
collection_recovery_fee
collections_12_mths_ex_med
next_pymnt_d | ||
policy_code |
sec_ : application_type 이 2인이상 대출신청인 경우와 함께 전처리 단계에서 비교해서 결정
실행 및 진행 사항 정리
결측치 어떻게 처리?
A. 결측, 이상치 처리 이후에 컬럼 선정하는것이 바람직하다.
하진님 질문 답변
-생각할때는 최대한 많은 특성(컬럼) 을 고려하기
ML 모델링시에는 최소 컬럼으로 최대 효율이 우선
원혁님 질문 답변
-데이터 로드시 메모리 먹는건 쩔수없음
결과
