주제 선택
SKAB : 데이터 양이 너무 방대하고 역학 지식이 많이 요구될거같음
스마트팜 : 농업관련 직무 희망 경우에는 굉장히 매력적이지만 그렇지 않다면 머신러닝 학습 정도에서 그칠 가능성이 있음
UK OnlineRetail : Unsupervised ML 도전하는 의미
저번 프로젝트에서 H&M 데이터셋 주제로 진행했어서 다른 영역에 도전해보고싶음
LendingClub : 금융 데이터 핸들링 경험치 쌓기에 좋아보임
1.
리스크 측정할만한 파생변수 생성해서 KPI로 설정
2.
생소한 용어들이 많은데 배우는 게 재밌을지도?
Airbnb : 식상해
프로젝트 목적
•
목표
•
EDA : 유효한 컬럼 선정 (6명 다)
•
전처리 : 결측치 이상치 처리
◦
유효컬럼 선정 후에 별도 논의
•
모델링 & 평가 : 다양한 모델 테스트, 하이퍼파라미터 튜닝, 지표 선정
•
문서화 : 규칙 합의 및 규칙 준수 확인
◦
패키지 버젼 통일(?) 내일 얘기하기
핵심 내용
•
연체 위험 고객 분류, 그룹화(?)
◦
파생 변수 활용
•
금융위기, 데이터 범위 외 변수 반영해서 분석해보기
•
통화정책, 재정정책 영향 연결
규칙 + 사용 툴
•
역할 설정 (FIXED)
•
Lead (+ Schedule management) - 안영준
•
EDA - 이하진
•
Preprocessing (+ Feature engineering) - 구예진
•
Modeling & Evaluation - 강찬휘
•
Documentation - 박미정
•
Presentation - 이원혁,
팀 명
아쉬워 벌써 12시
주제
LC 대출 데이터
선정 이유
금융 데이터 경험치 쌓기에 좋아보인다
1.
리스크 측정할만한 파생변수 생성해서 KPI로 설정해보기
2.
생소한 용어들이 많은데 배우는 게 재밌을것 같다
프로젝트 명
위험 고객 판단 및 수익 손실 최소화
목적 & 목표
통계적 근거를 바탕으로 다양한 알고리즘 모델의 지표를 평가하여 부실채권으로 인한 위험 회피.
핵심 내용
데이터 특성값들 중 유효한 특성을 선별하여 위험 고객인지 판단하는데에 미치는 영향력을 판단한다.
이를 바탕으로 대출 상환 여부를 분류하는 모델을 수립한다.
추가적으로 주어진 데이터셋과 외부 변수를 연관지었을 때 영향이 있는지 검증한다.
통계적 검정 방법을 사용하여 해석에 근거를 마련한다.
예를 들어 통화정책이나 재정정책 등등의 영향력 여부를 판단한다.
추가 궁금한 사항
금융 도메인 지식에 도움이 될만한 자료가 있다면 알고싶습니다.
