[250702] 타이타닉 데이터 뜯어보고 맛보고 음미하고 시음하고 개발하고 분석하고 …

진행일자

2025/07/02

했습니까

시간은 팀 조율로 정하기!

오늘은 오전 11시 시작!

titanic.csv

63.9KB

강민석

라혜선

설재웅

차서영

한다똥

재이 

팀원 모두의 종합 의견 또는 의견이 다를 경우 개별 의견을 적어도 괜찮습니다.

[공통 인사이트]

[의미 있었던 개별 인사이트]

•

목표 설정 (예: 생존 예측 정확도 향상 or 인사이트 도출)

•

타이타닉 데이터셋 구조 이해 (train.csv 열 분석)

•

기본 통계 확인 (df.info(), df.describe(), df.isnull().sum() 등)

•

가설 설정하기

•

분석 주제 아이디어 예시 (본인이 선택한 컬럼으로 새롭게 작성해도 됩니다)

생존에 영향을 준 요인 분석

탑승 위치와 생존률의 관계

•

탑승 위치(Embarked) + 선실 등급(Pclass)의 상호작용

가족 동반 여부가 생존률에 미치는 영향

운임이 높은 승객은 더 많이 생존했는가?

이름에서 추출한 직책이 생존률에 영향을 주는가?

•

이름 속 호칭이 생존율에 미친 영향 (Mr, Miss, Mrs, Dr…)

cabin 유무가 생존률과 연관이 있는가?

데이터 EDA 순서

•

결측치 처리 (Age, Cabin, Embarked 등)

•

범주형 → 수치형 변환 (Sex, Embarked)

•

이상치 탐지 (탑승료 Fare, 나이 Age)

•

변수 간 분포, 상관관계 시각화 (sns.heatmap, pairplot, countplot)

•

Survived와 관련 있는 변수 찾기 (성별, 나이, 계급 등)

•

가설별 시각화 + 검정 (예: 성별에 따라 생존률 차이가 있을 것이다.)

•

통계 기반 검정도 시도 (카이제곱 검정 등)

•

로지스틱 회귀, 랜덤 포레스트로 생존 예측

•

cross_val_score, accuracy_score 등으로 평가

•

가장 유의미한 인사이트 요약

•

시각화 정리: matplotlib, seaborn, plotly 활용 가능

•

한 페이지 요약 (주제, 방법, 결과, 인사이트)

•

발표 자료 (markdown, ppt 등)