/////
Search

Olist 관련 리서치 & 주제 관련

Tags
Archive
ETA
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/12/18 07:11
생성자
우선 순위
진행률 %
Task :
실행 및 진행 사항 정리
효진
유석
우주
기창

훈련-테스트 오염

테스트 데이터 정보가 훈련 과정에 영향을 미치는 경우
예시:
# 🚫 잘못된 방법 # 전체 데이터의 통계량으로 전처리 mean_age = df['age'].mean() # 테스트 데이터를 포함한 평균 df['age'].fillna(mean_age, inplace=True) X_train, X_test, y_train, y_test = train_test_split(X, y) # ✅ 올바른 방법 # 데이터 분할 후 훈련 데이터의 통계량만 사용 X_train, X_test, y_train, y_test = train_test_split(X, y) mean_age = X_train['age'].mean() # 훈련 데이터만의 평균 X_train['age'].fillna(mean_age, inplace=True) X_test['age'].fillna(mean_age, inplace=True) # 훈련 데이터의 평균을 테스트에 적용
Python
복사

전처리 과정의 데이터 누수

데이터 변환이나 특징 선택을 전체 데이터 기반으로 수행하는 경우
실제 사례:
예시 1: 이상치 제거
# 🚫 잘못된 방법 # 전체 데이터로 이상치 기준 설정 Q3 = df['income'].quantile(0.75) Q1 = df['income'].quantile(0.25) IQR = Q3 - Q1 df_filtered = df[(df['income'] >= Q1 - 1.5*IQR) & (df['income'] <= Q3 + 1.5*IQR)] X_train, X_test, y_train, y_test = train_test_split(df_filtered[features], df_filtered[target]) # ✅ 올바른 방법 # 분할 후 훈련 데이터로만 기준 설정 X_train, X_test, y_train, y_test = train_test_split(X, y) Q3_train = X_train['income'].quantile(0.75) Q1_train = X_train['income'].quantile(0.25) IQR_train = Q3_train - Q1_train # 훈련 데이터에서 이상치 제거 mask_train = (X_train['income'] >= Q1_train - 1.5*IQR_train) & \ (X_train['income'] <= Q3_train + 1.5*IQR_train) X_train = X_train[mask_train] y_train = y_train[mask_train]
Python
복사
예시 2: 스케일링
from sklearn.preprocessing import StandardScaler # 🚫 잘못된 방법 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 전체 데이터로 fit X_train, X_test = train_test_split(X_scaled) # ✅ 올바른 방법 X_train, X_test = train_test_split(X) scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) # 훈련 데이터로만 fit X_test_scaled = scaler.transform(X_test) # 테스트는 transform만
Markdown
복사
핵심 조사 내용
주제
주제 1
주제 2
인사이트
1.
구매자의 평점을 통해서 좋은 셀러와 나쁜 셀러를 등급으로 구분해서 좋은 셀러에게는 혜택을 주는 방식
2.
ETA를 정확하게 표시하도록 모델을 만들어서 정확한 ETA를 표현 가능하도록 만드는 방향
3.
구매자의 현재 등급을 확인하고 가장 이점을 높일 수 있는 구독형으로 갈아타도록 제시
4.
구매자의 판매량을 파악하고, 거기에 맞도록 플랫폼을 이탈하지 않게 만드는 유도책
5.
리뷰가 달리기 전, 문제 (배송 지연, 주문구조, 결제 수단 등 )를 감지할 수 있는 모델 (리뷰 관련 분석)
+
1.
레퍼런스 - 렐라켓 (긍정적 인사이트 도입 가능) https://relaket.com/bizhome/features/global_market.php
2.
올리스트(2015/7 론칭) 프로모션 이해, 중심문제? https://olist.com/planos/
3.
리클라미 아키 - 올리스트 평가
페르소나
유석