/////
Search

PPT 제작

담당자
주제선정
PPT
Archive
ETA
2025/11/24
Main Task
Sub Task
메모
상태
Done
생성 일시
2025/11/19 05:24
생성자
단계
High
진행률 %
Task :
→ 피피티 링크 / 실시간으로 수정 중…
1조 1RIS H&M 데이터 분석 백피 (겸 대본 초안)
흐름과 개연성을 넣는 데에 집중함
0) 목차
1) 프로젝트 개요
개요 pre – 데이터분석가의 기초 소양 짚고 넘어가기
도메인에 대한 이해가 우선되는 직종
같은 데이터를 갖고도 여러 인사이트를 낼 수 있는 직종
개요 main - H&M은 어떤 기업인가?
~이러한 도메인에 속해있음.
이 산업만의 특징은 ~이런 것임 (간략하게 설명)
우리가 데이터분석가로서 이 도메인을 선택한 이유는 ~이런 것임
2) Data Preview (자칫 늘어질 수도 있는 발표기 때문에 초반에 이목을 집중시키는 게 중요하다고 판단함. 데이터셋을 소개하기 전에 문제제기를 먼저 함. 흐름은 바꿔도 돼요)
84.7%의 고객이 단 하나의 제품만 구매한다?
본격적 데이터 전처리 단계로 가기 전에, 데이터에 대한 이해가 우선되어야 한다고 생각했기 때문에 1조는 데이터셋을 상세히 뜯어봄.
84.7%의 방대함 강조, 객단가의 저조함 강조
방대한 마케팅 비용을 들여 고객을 데려왔는데, 고객이 하나의 상품만 구매하고 떠나게 만드는 것은 큰 기회 비용의 손실
잠재 이익을 놓치고 있다고 판단됨
데이터셋 소개
데이터 안에 ~이러한 내용이 들어있었음
3) Data Preprocessing
데이터 전처리 과정
결측치와 이상치 1) 연령
H&M을 포함한 패스트패션 소비자는 연령대, 가격 민감도, 지속사능성 인식에 따라 소비행동이 달라진다는 점이 KCI 등재 및 국제 학술연구에서 반복적으로 확인됨. 소비자를 단일 집단이 아닌 연령과 심리적 태도가 결합된 다양한 유형으로 나눠야한다는 합리적 선행 연구에 따라 -24 / 25-34 / 35+의 세 세그먼트로 고객을 분류하기로 했음.
0-15세 데이터는 존재하지 않아 배제하고 진행함.
또한, 총 데이터 10만 개 기준 90세 이상 데이터는 200여개로2%밖에 존재하지 않아 이상치 처리함
.
결측치와 이상치 2) 가격
0원 데이터 확인 (없어서 제거 안 함)
IQR 기반 고가 이상치(상한 경계) 판별
0원 데이터 + 고가 이상치 df 제작
실행 및 진행 사항 정리
배시환 코드
project_start5.ipynb
185.8 KiB
결과