/////
Search

프로젝트 킥오프

Tags
주제 선정
Archive
ETA
2025/12/18
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/12/18 01:52
생성자
우선 순위
Low
진행률 %
Task : 역할 분담
공통 - EDA / 시각화 / 통계 / 전처리
김종선 - 발표, 대본
정지연 - 발표 영상
이정모 천혜빈 - PPT
이용훈 - 코드정리
Task: 프로젝트 주제 선정
LendingCulb은 무슨 기업인가?

어떤 비즈니스 문제를 해결 할 수 있을까?

김종선
1. 부실 대출자 조기 탐지 및 등급 재산정
LendingClub에서 매긴 등급(Grade)이 과연 정확할까?
우리가 분석해보니 등급은 높지만(A, B) 실제로는 연체할 가능성이 높은 그룹의 특징을 찾아낸다.
핵심 포함 내용
데이터 전처리 (결측치 처리, 파생변수 생성)
통계적 분석 (T 검정, 카이제곱 검정, 상관분석 등)
심화 탐색적 데이터 분석 (EDA) 및 시각화 (Matplotlib/Seaborn)
논리적 데이터 스토리텔링
기본 과제
기본 과제
lendingClub에서 매긴 등급(grade)가 실제로 대출 상환률과 높은 상관관계를 보이는가?
새로 조정할 등급라인을 만들기 (EDA)
도전 과제 (선택 사항) :
주제와 연관하여 추가적으로 데이터를 분석하고 스스로 판단하여 더 필요한 부분에 대해서 분석해보세요.
예시1 - 심화 세그먼트 분석: 특정 직업군이나 거주 지역(addr_state)별로 리스크가 높은 집단을 구체적으로 특정해보세요.
예시2 - 파생 변수 생성: 기존 변수들을 조합하여 새로운 리스크 지표를 만들어보세요. (예: 소득 대비 월 상환금 비율 등)
예시3 - 비즈니스 전략 제안: 분석 결과를 토대로 "DTI가 XX 이상이면서 신용등급이 C 이하인 고객은 대출 심사를 강화해야 한다"와 같은 구체적인 수치 기반의 제안을 보고서에 포함하세요.
필수 컬럼
대출자의 경제적 능력 - annual_inc : 연간 소득 - dti : 소득 대비 부채 비율 - emp_length : 고용기간 - home_ownership : 주거 형태 신용 기록 및 행동 패턴 - fico_range_low / fico_range_high : 외부 신용평가기관의 점수 - inq_last_6mths : 최근 6개월간의 신용조회 횟수 - revol_util : 리볼빙? 이용률 - delinq_2yrs : 지난 2년간 30일 이상 연체한 횟수 - pub_rec : 파산 등 공적 기록 횟수 대출 상품 정보 - loan_amnt : 대출 원금 - int_rate : 이자율 - term : 대출 기간 - purpose : 대출 용도
SQL
복사
''' 'loan_status', # 타겟: 상환 여부 'loan_amnt', # 대출 신청 금액 'term', # 대출 기간 (36개월 vs 60개월) 'int_rate', # 이자율 'grade', # 신용 등급 'sub_grade', # 세부 등급 (Grade보다 세분화됨) 'annual_inc', # 연소득 'verification_status', # 소득 인증 상태 'purpose', # 대출 목적 'emp_length', # 근속 연수 'home_ownership', # 주거 형태 (자가, 월세 등) 'dti', # 총부채상환비율 (빚/소득) 'revol_util', # 리볼빙 한도 대비 사용 비율 'fico_range_low', # FICO 신용점수 (하한선) 'inq_last_6mths', # 지난 6개월간 신용 조회 횟수 'delinq_2yrs', # 지난 2년 연체 횟수 'pub_rec' # 파산 등 공공 기록 수 '''
Python
복사
팀원 코드
김종선
천혜빈
이정모
정지연
이용훈