//////
/
Search
Duplicate

[250702] 타이타닉 데이터 뜯어보고 맛보고 음미하고 시음하고 개발하고 분석하고 …

진행일자
2025/07/02
했습니까
시간은 팀 조율로 정하기!
오늘은 오전 11시 시작!

선정 데이터

titanic.csv
63.9KB

팀원 별 데이터 코드 공유

강민석
라혜선
설재웅
차서영
한다똥
재이

팀원 종합 인사이트 정리

팀원 모두의 종합 의견 또는 의견이 다를 경우 개별 의견을 적어도 괜찮습니다.
[공통 인사이트]
[의미 있었던 개별 인사이트]

EDA 예시 템플릿

1주일 프로젝트 일정 (Titanic EDA + 분석)

Day 1: 프로젝트 계획 수립 & 데이터 구조 이해

목표 설정 (예: 생존 예측 정확도 향상 or 인사이트 도출)
타이타닉 데이터셋 구조 이해 (train.csv 열 분석)
기본 통계 확인 (df.info(), df.describe(), df.isnull().sum() 등)
가설 설정하기
분석 주제 아이디어 예시 (본인이 선택한 컬럼으로 새롭게 작성해도 됩니다)
생존에 영향을 준 요인 분석
탑승 위치와 생존률의 관계
탑승 위치(Embarked) + 선실 등급(Pclass)의 상호작용
가족 동반 여부가 생존률에 미치는 영향
운임이 높은 승객은 더 많이 생존했는가?
이름에서 추출한 직책이 생존률에 영향을 주는가?
이름 속 호칭이 생존율에 미친 영향 (Mr, Miss, Mrs, Dr…)
cabin 유무가 생존률과 연관이 있는가?

 Day 2: 데이터 전처리

데이터 EDA 순서
결측치 처리 (Age, Cabin, Embarked 등)
범주형 → 수치형 변환 (Sex, Embarked)
이상치 탐지 (탑승료 Fare, 나이 Age)

Day 3: 데이터 전처리 2 + 시각화 기반 EDA

변수 간 분포, 상관관계 시각화 (sns.heatmap, pairplot, countplot)
Survived와 관련 있는 변수 찾기 (성별, 나이, 계급 등)

Day 4: 가설 검정 / 인사이트 도출

가설별 시각화 + 검정 (예: 성별에 따라 생존률 차이가 있을 것이다.)
통계 기반 검정도 시도 (카이제곱 검정 등)

Day 5: 기초 모델링 (선택 사항)

로지스틱 회귀, 랜덤 포레스트로 생존 예측
cross_val_score, accuracy_score 등으로 평가

Day 6: 결과 정리 & 시각화

가장 유의미한 인사이트 요약
시각화 정리: matplotlib, seaborn, plotly 활용 가능

Day 7: 보고서 정리 & 발표 자료 만들기

한 페이지 요약 (주제, 방법, 결과, 인사이트)
발표 자료 (markdown, ppt 등)