Task : 역할 분담
공통 - EDA / 시각화 / 통계 / 전처리
김종선 - 발표, 대본
정지연 - 발표 영상
이정모 천혜빈 - PPT
이용훈 - 코드정리
Task: 프로젝트 주제 선정
LendingCulb은 무슨 기업인가?
어떤 비즈니스 문제를 해결 할 수 있을까?
김종선
1. 부실 대출자 조기 탐지 및 등급 재산정
LendingClub에서 매긴 등급(Grade)이 과연 정확할까?
우리가 분석해보니 등급은 높지만(A, B) 실제로는 연체할 가능성이 높은 그룹의 특징을 찾아낸다.
핵심 포함 내용
•
데이터 전처리 (결측치 처리, 파생변수 생성)
•
통계적 분석 (T 검정, 카이제곱 검정, 상관분석 등)
•
심화 탐색적 데이터 분석 (EDA) 및 시각화 (Matplotlib/Seaborn)
•
논리적 데이터 스토리텔링
기본 과제
기본 과제
•
lendingClub에서 매긴 등급(grade)가 실제로 대출 상환률과 높은 상관관계를 보이는가?
•
새로 조정할 등급라인을 만들기 (EDA)
도전 과제 (선택 사항) :
•
주제와 연관하여 추가적으로 데이터를 분석하고 스스로 판단하여 더 필요한 부분에 대해서 분석해보세요.
◦
예시1 - 심화 세그먼트 분석: 특정 직업군이나 거주 지역(addr_state)별로 리스크가 높은 집단을 구체적으로 특정해보세요.
◦
예시2 - 파생 변수 생성: 기존 변수들을 조합하여 새로운 리스크 지표를 만들어보세요. (예: 소득 대비 월 상환금 비율 등)
◦
예시3 - 비즈니스 전략 제안: 분석 결과를 토대로 "DTI가 XX 이상이면서 신용등급이 C 이하인 고객은 대출 심사를 강화해야 한다"와 같은 구체적인 수치 기반의 제안을 보고서에 포함하세요.
필수 컬럼
대출자의 경제적 능력
- annual_inc : 연간 소득
- dti : 소득 대비 부채 비율
- emp_length : 고용기간
- home_ownership : 주거 형태
신용 기록 및 행동 패턴
- fico_range_low / fico_range_high : 외부 신용평가기관의 점수
- inq_last_6mths : 최근 6개월간의 신용조회 횟수
- revol_util : 리볼빙? 이용률
- delinq_2yrs : 지난 2년간 30일 이상 연체한 횟수
- pub_rec : 파산 등 공적 기록 횟수
대출 상품 정보
- loan_amnt : 대출 원금
- int_rate : 이자율
- term : 대출 기간
- purpose : 대출 용도
SQL
복사
''' 'loan_status', # 타겟: 상환 여부
'loan_amnt', # 대출 신청 금액
'term', # 대출 기간 (36개월 vs 60개월)
'int_rate', # 이자율
'grade', # 신용 등급
'sub_grade', # 세부 등급 (Grade보다 세분화됨)
'annual_inc', # 연소득
'verification_status', # 소득 인증 상태
'purpose', # 대출 목적
'emp_length', # 근속 연수
'home_ownership', # 주거 형태 (자가, 월세 등)
'dti', # 총부채상환비율 (빚/소득)
'revol_util', # 리볼빙 한도 대비 사용 비율
'fico_range_low', # FICO 신용점수 (하한선)
'inq_last_6mths', # 지난 6개월간 신용 조회 횟수
'delinq_2yrs', # 지난 2년 연체 횟수
'pub_rec' # 파산 등 공공 기록 수
'''
Python
복사
팀원 코드
김종선
천혜빈
이정모
정지연
이용훈
