시간은 팀 조율로 정하기!
오늘은 오전 11시 시작!
선정 데이터
팀원 별 데이터 코드 공유
강민석
라혜선
설재웅
차서영
한다똥
재이 
팀원 종합 인사이트 정리
팀원 모두의 종합 의견 또는 의견이 다를 경우 개별 의견을 적어도 괜찮습니다.
[공통 인사이트]
[의미 있었던 개별 인사이트]
EDA 예시 템플릿
1주일 프로젝트 일정 (Titanic EDA + 분석)
Day 1: 프로젝트 계획 수립 & 데이터 구조 이해
•
목표 설정 (예: 생존 예측 정확도 향상 or 인사이트 도출)
•
타이타닉 데이터셋 구조 이해 (train.csv 열 분석)
•
기본 통계 확인 (df.info(), df.describe(), df.isnull().sum() 등)
•
가설 설정하기
•
분석 주제 아이디어 예시 (본인이 선택한 컬럼으로 새롭게 작성해도 됩니다)
생존에 영향을 준 요인 분석
탑승 위치와 생존률의 관계
•
탑승 위치(Embarked) + 선실 등급(Pclass)의 상호작용
가족 동반 여부가 생존률에 미치는 영향
운임이 높은 승객은 더 많이 생존했는가?
이름에서 추출한 직책이 생존률에 영향을 주는가?
•
이름 속 호칭이 생존율에 미친 영향 (Mr, Miss, Mrs, Dr…)
cabin 유무가 생존률과 연관이 있는가?
Day 2: 데이터 전처리
데이터 EDA 순서
•
결측치 처리 (Age, Cabin, Embarked 등)
•
범주형 → 수치형 변환 (Sex, Embarked)
•
이상치 탐지 (탑승료 Fare, 나이 Age)
Day 3: 데이터 전처리 2 + 시각화 기반 EDA
•
변수 간 분포, 상관관계 시각화 (sns.heatmap, pairplot, countplot)
•
Survived와 관련 있는 변수 찾기 (성별, 나이, 계급 등)
Day 4: 가설 검정 / 인사이트 도출
•
가설별 시각화 + 검정 (예: 성별에 따라 생존률 차이가 있을 것이다.)
•
통계 기반 검정도 시도 (카이제곱 검정 등)
Day 5: 기초 모델링 (선택 사항)
•
로지스틱 회귀, 랜덤 포레스트로 생존 예측
•
cross_val_score, accuracy_score 등으로 평가
Day 6: 결과 정리 & 시각화
•
가장 유의미한 인사이트 요약
•
시각화 정리: matplotlib, seaborn, plotly 활용 가능
Day 7: 보고서 정리 & 발표 자료 만들기
•
한 페이지 요약 (주제, 방법, 결과, 인사이트)
•
발표 자료 (markdown, ppt 등)