/////
Search
🙌🏻

[12/18(목) - 프로젝트 킥오프]

Tags
Archive
ETA
2025/12/18
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/12/18 02:12
생성자
우선 순위
진행률 %
Task : 주제 선정 & 역할분담 & 초기계획
프로젝트 주제 선정
데이터셋 선정: olist 브라질 전자상거래 데이터
결론: 물류 카테고리 수요 예측(쿠팡과 같은 데이터 분석을 해서 올리스트를 쿠팡처럼 만들어보겠다 (스토리 라인)
데이터셋 탐색
준성님: olist 브라질 전자상거래 데이터
다솜님: 스마트팜
재민님: 다이캐스팅 공정 데이터 기반 품질 개선
아라님: olist 브라질 전자상거래 데이터, UK Online Retail 데이터
지완님: 다이캐스팅 공정 데이터/유체 공정 시뮬레이션 데이터
성현님: olist 브라질 전자상거래 데이터
팀 역할 분담
분석: 모두 분석 진행하고, 나중에 분석 파트를 나누는 것으로..!
팀장: 다솜님
줌 발표: 아라님
녹화 발표: 준성님
장표 만들기: 지완님
서기
프로젝트 초기 계획 수립
1/ 물류 카테고리 수요 예측(쿠팡과 같은 데이터 분석을 해서 올리스트를 쿠팡처럼 만들어보겠다 (스토리 라인)
2/ 플랫폼에서의 고객 가치, 가치평가, 예측 쪽으로 보면 좋을 것 같다
기반 조사 쿠팡쪽은 어떤지 어떤 모델 써볼까 어떤 지표를 볼까 고객 가치평가를 할거면 (토스 컨텐츠, LTV)
지표, 파생변수 만들어서 머신러닝 조사해서 결정하면 좋을 것 같음
(성현님) 배송시간 예측, 예측과 다르게 에러가 컸다 등 → 재미는 있을 듯
어디서 뭘 해결할까 배송지 How 액션 쪽에서 새롭게 디벨롭 할 수 있다. 다만, 주제 자체가 머신러닝 활용도랑 차이가 있다 (지오코딩)
리뷰 기반 모델이 많음
16시 40분까지 생각 후 주제 선정
(지완님 의견) 다 합칠 수는 없나?
'배송 지연'에 따른 소비자의 불만족 해결 위한 전사적 해결책 (비즈니스적 관점)EDA (성현님) 도로(인프라) 발달이나 거리에 따른 낙후지역/우수지역 구분 지역별 차이가 배송 지연에 얼마나 유의미한 영향을 주는지 <통계적 검증> 선행. (다솜님) 평점과 더불어 리뷰 코멘트의 키워드 추출하여 '배송'과 관련된 불만족 추출 머신러닝 (지완님/아라님/재민님) 주문 발생 시점부터 배송 완료까지 독립변수들을 조합하여 '이 주문이 안 좋은 리뷰를 받을 확률(소비자 만족도가 낮을 확률)' <회귀 분석> -> 배송 진행 중에 위험 신호 미리 감지
인사이트 (준성님) 배송 지연과 부정 리뷰가 재구매율에 얼마나 영향을 미치는지 보여주고, 위험 신호에 따른 대책 마련
20시 주제 선정 및 목표
(준성님) 3년이 아니라 17, 18년도 2년 간 데이터 현황 분석
월별 카테고리 별로 그래프, 19년도 매출을 예측할 때 회귀분석
이후 카테고리 별로 결과가 나오면 롤링을 쓰면 위/아래 하락·상승을 나누는데
하락 카테고리에 리뷰 데이터를 가지고 비지도 k-means (다른 것이 될 수도 있음)
어떤 속성이 주제가 될지 정하자? (여기까지 해서 시간이 끝날 수도 있고 배송이 나올 수도 있다.)
⇒ (튜터님) 주제 자체가 크다보니 가져오신 것들 중에 일부만 가지고도 하나의 주제로 잡을 수 있을만한 상황인 것 같음.
포트폴리오로 의미있는 것은, (쿠팡에서 아마존 따라하면서 데이터 분석) 계절별/시간별/카테고리/상품 수요량을 예측해서 미리 재고들을 특정 물류센터에 배치해 놓아 빠른 배송(재고 컨트롤)했었다. 여기도 이 방법을 시도해 볼 수 있지 않을까? 난이도는 있겠지만.. 현재 머신러닝 배운 정도로는 결과가 잘 안 나올 수 있음. 커머스, 물류쪽 도메인에 대한 머신러닝 고민을 많이 할 것이고, 고민/시행착오 경험이 될 수 있음
그 뒤는 다솜님 얘기와 비슷.. 주제를 나눈다는 건 다를 수 있지만 리뷰데이터 기반으로 세그먼트 나눠서 분석해보겠다
물류 카테고리 수요 예측(쿠팡과 같은 데이터 분석을 해서 올리스트를 쿠팡처럼 만들어보겠다 스토리 라인)
(다솜님) 공통적으로 나온 주제가 배송지연으로 인한 고객 만족도 리뷰 평점 어떤지, 지완님이 공통으로 합쳐주신거 기반으로 생각함
배송 지연으로 인한 고객 만족도 리뷰 평점 어떻고
그거에 따른 재구매율은 어떨지 예측하는 것이었는데
리뷰 테이블에서 리뷰를 안 적은 고객들도 있다. 리뷰 테이블에서 결측치를 보려고 하면 엄청 많이 나옴 (빈칸 수두룩)
지완님 의견을 디벨롭: 리뷰와 평균 평점을 보고 비지도를 먼저 들어가고 군집을 4개로 나눈다 (또는 파생변수)
리뷰가 있고, 평점이 높은 고객
리뷰가 없고 평점이 높은 고객
리뷰가 있는데 평점이 낮은 고객
리뷰도 없고 평점도 낮은 고객
각 군집의 배송 지연률을 계산한다.
지연률의 파생 변수를 만들고, A군집은 지연률이 ~% 비군집은 6% 등 낮은 군집도 있고 높은 군집도 있는 것 (배송 지연률)
분석을 통해 배송 지연 이슈로 리뷰어 평점을 이렇게 주었다 인사이트가 나올 수 있음
재구매율과 엮는다. (지도 학습)
배송 지연률이 몇%인 그룹은 재구매를 얼마나 할까? 예측
비지도로 군집을 먼저 나누고, 각 군집의 재구매율을 지도 학습으로 예측한다.
여기서 마케팅을 들어간다
(예시) 재구매율이 낮은 집단들 위주로 마케팅을 한다든지
성현님 의견 중 하나인 물류 센터 내용을 추가할 수도
⇒ (튜터님) 리뷰 텍스트는 다른 형식으로 머신러닝을 해야해서, 지금까지 배운거랑 달라서 시행착오 있을 듯
아무래도 지금 배운거를 당장 활용해보는 것이 좋을 듯. 리뷰 텍스트는 그렇게 추천드리진 않음..
유저 세그먼트를 각 세그먼트로 나눠서 분석해 보겠다 → 좋은 포인트는 재구매율이라는 측면. 결국에는 유저에 대한 가치평가가 들어간, 어떤 상황에서 배송지연이 발생? 원래 100달러 쓸 유저인데, 그 이후에 50달러밖에 안 쓰는 유저가 있다. 등 재구매율 뿐만 아니라 고객의 가치 측정. LTV 고객이 이 플랫폼에 있는 동안 돈을 얼마나 쓸 것인가
접속빈도, RFM분석 (얼마나 자주 많이 . 지표) , 롤링
특정 이벤트가 있을 때 얼만큼 크게 바뀌는지 인사이트가 꽤 될 것 같음
배송지연이 발생하지 않은 경우에 기대가치가 더 높았다를 보여주면 배송지연 문제를 해소하면 고객 가치를 이만큼 끌어올려서 매출을 몇% 끌어올린다 등 스토리..
플랫폼에서의 고객 가치, 가치평가, 예측 쪽으로 보면 좋을 것 같다
논의
전체 다 같이 분석 / 분석 할 파트를 나눌 것인지
모두 분석 진행하고, 나중에 파트를 나누는 것으로..!

지완님

주문 단위 리스크 예측: “이 주문이 문제(저평점 리뷰)로 이어질 확률”을 배송 일련의 과정 중 예측

아라님

배송 지연 → 불만족 영향 검증 + 예측: 배송 지연이 리뷰 불만족(저평점) 에 미치는 영향을 통계 검증하고, 주문/배송 정보로 불만족 리뷰 사전 예측
Olist는 판매자를 위한 SaaS 기반 서비스이지만, 주문·배송·리뷰 전반의 흐름을 플랫폼 단위로 조율하는 중개형 이커머스 플랫폼 구조를 가지고 있습니다. 이로 인해 배송 지연은 개별 판매자 이슈를 넘어 고객이 인식하는 플랫폼 경험과 신뢰에 영향을 미치는 요인으로 해석할 수 있다고 판단했습니다.
이에 따라 본 프로젝트에서는 Olist 주문 데이터를 활용해 배송 지연이 리뷰 불만족에 실제로 유의미한 영향을 미치는지 통계적으로 검증하고, 주문·배송 정보를 기반으로 불만족 리뷰를 사전에 예측함으로써 플랫폼 차원의 고객 신뢰 관리에 활용 가능한 데이터 기반 인사이트를 도출하는 것을 목표로 합니다.
+ 20시 미팅 시
배송 지연은 전체 주문의 약 8%에서 발생하며,
이는 무작위가 아니라 주문/상품/판매자 특성으로 설명·예측 가능하다
데이터 상으로 보면 예정 배송일을 넘긴 주문은 전체의 약 7.87%로 많지는 않음. 다만 이 소수의 주문이 리뷰 불만과 플랫폼 신뢰 하락을 집중적으로 만들 가능성이 있어서, ’빈도는 낮지만 영향은 큰 리스크’로 본다
이커머스 관점
(예시) 주문 100만 건 → 7만 8천 건 지연
이 중 일부만 낮은 리뷰 → 플랫폼 신뢰도 하락
재구매·NPS·CS 비용에 연쇄 영향

준성님

매출 예측 및 하락 요인 탐색 + 해결책 제
→ 주제 선정에 있어서, 실무적으로, 비즈니스적으로 실전 활용이 가능한지를 중점으로 생각해보았다.( = 매출 증대 전략 )
olist 기업은 여러 대형 마켓 플레이스에 동시 판매(노출), 운영할 수 있게 돕는 기업이다. 즉 솔루션 생태계를 제공하는 시스템.
기업 → 판매자 ⇒ 기존 판매자의 전략이 좋지 않아, 하락세를 유발하였다면, 기업 측에서 판매자에게 솔루션을 제공. 판매자가 살아야 기업이 산다.
1.
3년치 or 1년치 월×카테고리 매출로 내년도 매출 예측(회귀)
2.
하락 카테고리 선별 → 하락 카테고리 상승시 기대 매출 제시( = 해당 분석의 필요성 입증) → 리뷰 데이터 기반 TF-IDF 분석 등( 빈도 분석)으로 하락 요인(키워드) 추정
3.
개선 시 기대 매출(시뮬레이션)시

성현님

배송/운영 최적화 + 판매자 성과관리
(요약) 배송이 느리면 판매자 평점이 내려가고 결국 고객이 떠난다.
(배송 품질) 배송 시간/지역별 문제, 판매자별 배송지연률 등으로 비정상 판매자 탐지
배송 지연 발생 → 고객 불만족 → 판매자 평점 저하 → 판매자 수익 감소(입점 철수) → Olist 매출 감소 → 플랫폼 신뢰도 하락
마지막에 배송 지연이 판매자 평점에 미친 영향까지 연결
“브라질 지역 인프라 격차”를 액션 플랜으로 제안 가능
물류 허브를 XX 도시에 만들면 배송 시간을 XX% 단축 가능
브라질 지도에 배송 시간을 색으로 표시
배송 지연이 빈번한 지역을 히트맵으로 시각화 하여 물류 센터 추가 입지 제안

재민님

부정 리뷰 감소/재구매율 관점
배송 지연 등 불만 요인이 재구매율에 미치는 영향 확인
목표를 “재구매율 개선”으로 잡으면 비즈니스 메시지가 더 강해질 수 있음
리뷰 불만족이 자주 일어나는 제품 확인

다솜님

평점/리뷰 코멘트 기반 고객 세그먼트 & 재구매율
“평점이 높으면 충성도도 높을까?”
리뷰 코멘트 길이/내용 특성 + 리뷰 평균 평점으로 세그먼트 → 재구매율 비교 → 재구매율 낮은그룹 마케팅 타겟팅 방향(추가 설계 필요)
결론
비지도: 고객 세그먼트 정의 -> 지도: 그룹별 재구매율(낮을지,높을지)예측 -> 마케팅 방안 제시
아라
오후 9시까지 계획서 작성하여 제출
실행 및 진행 사항 정리
결과