기초 프로젝트
1. 프로젝트 개요
NBA 경기 데이터를 기반으로 선수 효율성, 점수차 결정 요인,
연승/연패 패턴 분석을 수행하는 것을 목표로 한다.
현재는 데이터 탐색(EDA)과 분석 설계가 진행된 상태이며,
아래 3개의 핵심 분석 과제를 중심으로 프로젝트가 구성되어 있다.
핵심 분석 주제 3가지
1.
출전 시간 대비 가장 높은 효율을 가진 선수 찾기
2.
점수차(스코어 마진)를 결정하는 핵심 지표 분석
3.
경기 패턴 기반 연승·연패 요인 분석
이 3개는 선수 효율성 → 팀 경기력 → 시즌 패턴으로 자연스럽게 연결되어
개인 프로젝트임에도 전체적인 완성도가 높고, 분석 방향성이 명확하다.
2. 사용 데이터 구성(요약)
•
games.csv
→ 팀 단위 경기 요약(득점, 야투 성공률, 3점 성공률, 리바운드, 어시스트 등)
•
games_details.csv
→ 선수별 경기 기록(득점·리바운드·어시스트·스틸·블록·턴오버·파울·출전시간·플러스마이너스)
•
ranking.csv
→ 팀 순위, 승패(W/L), 날짜별 성적 변화
•
players.csv
→ 선수 기본 정보
•
teams.csv
→ 팀 기본 정보
현재까지 모든 파일 구조 파악 및 1차 로딩은 완료된 상태다.
3. 현재 진행 상황(EDA·설계 단계 중심)
1) 데이터 로딩 및 구조 파악 (완료)
•
CSV 파일 로딩
•
행·열 수(shape) 확인
•
컬럼 타입 점검
•
날짜(GAME_DATE_EST) 형식 변환
•
출전시간(MIN) → 분 단위 변환 준비
2) 결측치 확인 및 처리 기준 정리 (진행)
•
출전시간(MIN) 결측 → 미출전으로 간주 → 제거
•
플러스마이너스 결측 → 기록 없음 → 제거
•
야투율(FG%)·3점(FG3%) → 시도(FGA)가 0이면 0 처리
3) 이상치 점검 (진행)
•
출전시간 48분 이상 → 연장 경기 여부 확인
•
음수 득점 등 명백한 오류는 제거 예정
4) 기본 EDA 문서화 (약 40~50% 완료)
•
데이터별 결측 현황
•
주요 통계값(min, mean, median, max)
•
변수 타입 정리
•
팀/선수 핵심 변수 리스트 확정
4. 분석 주제별 목적 및 접근 계획
(1) 출전 시간 대비 가장 높은 효율의 선수 찾기
목적
•
제한된 출전 시간 속에서 가장 높은 성과를 내는 선수 찾기
•
숨은 핵심 자원 발굴(벤치 멤버 가치 확인)
주요 지표
•
분당 득점(PTS/MIN)
•
분당 리바운드(REB/MIN)
•
분당 어시스트(AST/MIN)
•
플러스마이너스/분(PLUS_MINUS/MIN)
•
효율성 기반 가중 점수 산출
분석 흐름
1.
선수별 MIN 기반 정규화
2.
포지션/팀 필터 적용
3.
상위 효율 선수 TOP 리스트 도출
4.
경기 유형(홈/어웨이, 승/패)별 패턴 비교
(2) 점수차(스코어 마진)를 결정하는 핵심 지표 분석
목적
•
어떤 팀 지표가 점수차에 가장 크게 기여하는지 분석
•
단순 ‘승리 여부’보다 더 정교한 경기력 분석 가능
주요 지표
•
득점(PTS)
•
야투 성공률(FG%)
•
3점 성공률(FG3%)
•
리바운드(REB)
•
어시스트(AST)
•
턴오버(TO)
분석 흐름
1.
점수차(홈 득점 – 원정 득점) 계산
2.
상관관계 분석
3.
회귀 분석으로 영향력 수치화
4.
“점수차를 가장 크게 움직이는 지표” 도출
(3) 경기 패턴 기반 연승·연패 요인 분석
목적
•
시즌 흐름을 결정하는 요인을 구간(연승/연패) 단위로 파악
•
팀의 안정성·변동성 이해 → 전술적 해석 가능
분석 개념
•
승리/패배의 단순 누적이 아니라,‘연속 구간’ 단위로 팀 경기력 패턴 비교
주요 비교 포인트
•
득점/야투율/3점 성공률
•
리바운드·어시스트 변화
•
턴오버 증가 여부
•
벤치 출전 시간·득점 기여도 변화
분석 흐름
1.
ranking.csv로 연승·연패 구간 구분
2.
구간별 평균 스탯 비교
3.
패턴 변동 그래프 생성
4.
연패 시 공통적으로 나오는 문제점 추출
