데이터 EDA (분석,시각화)
•
•
•
1.
대출 상태별 리볼빙(신용) 사용률(%) 분포
2.
대출 등급별 리볼빙(신용) 사용률(%) 분포
3.
공적 기록(pub_rec)별 대출 등급 분포
4.
대출 기간별 대출 등급 분포
5.
대출 기간과 대출 금액 중앙값 비교
가설 세우기
1.
등급이 부실할수록 연체율이 정말 매끄럽게 상승하는가?
특정 등급(예: B)의 연체율이 그보다 낮은 등급(예: C)보다 높거나 비슷하다면,
LendingClub의 등급 산정 로직에 결함이 있는 구간이 존재할 것
2.
데이터 간의 상관관계를 통계적으로 입증
•
시각화: 등급별 연체율, 대출 목적별 이자율 등을 그래프로 표현.
•
통계 검정: "A등급과 B등급의 연체율 차이는 통계적으로 유의미한가?" (T-test, Chi-square 등 활용)
•
인사이트 도출: 시각화 결과, 특정 지역이나 특정 직업군에서 연체율이 유독 높게 나타남 등
시각화 결과
통계 검정 결과
인사이트 도출 결과
팀원별 코드
김종선
천혜빈
이정모
이용훈
정지연
