◾

25.07.15 팀스크럼

1. 각 주제별 해설 플로우 완성

•

PPT 개요 = CLV 설명 → 팀 프로젝트의 목표가 CLV 증진으로 간 이유 설명 → 각  CLV를 중요하다고 생각한 이유 → 첫구매주문금액이 중요한 이유 골든 타임, 이탈 고객 설명 → 만족도(평점) 시스템 설명

•

모든 범주가 결국 CLV로 가야 의미가 있지 않을까? 라는 생각이 들고 각 범주는 CLV증진으로 가는 여정에서 다각적 시각으로 봤다고 어필하면 되지 않을까 라는 생각.

2. 목표에 맞는 세미 결론 완성

3. 평일에 진행해야할 추가 사항 정리

•

필요한 데이터 정리해서 보기

•

콜렙은 혜선’s가 최신화

•

데이터 검증 뎊스 들어가기

반박가능

반박 시 당신 말이 다 맞음ㅌㅋㅌㅋㅋㅌㅋㅌㅌ

14-15일(월-화): 데이터 검증 뎊스 들어가기

16일(수): 튜터님 피드백 받기 + ppt 초안

17-18일(목-금): ppt 제작 + 스크립트 + 목업 작업

21일(월): 제출

갑자기 하다가 생각남.

발표 초입:

안녕하십니까 저희는 4조입니다~어쩌구이러시구 저러시구

저희는 고객의 총 CLV가 가장높은 상위 5개조합을 기준으로 삼전의 고객생애가치를 늘리는 방안에 대해 말씀드리곘습니다~

실행 및 진행 사항 정리

고객 세그먼트별 구매 행동 분석 및 맞춤형 마케팅 전략 제안 

1-1. 사용자의 이탈률/이탈기간 두가지의 차이분석 하여 > 더 CLV를 높일 수 있는것을 선택(머신러닝) (서영 → 민석)

가설 생각 이유

목표랑 부합하는지에 대한 검증

추가적으로 봐야할 데이터

가설 폐기 → 이탈 기준 명확하게 정하기

강민석 버전

1-2. 스마트폰을 구매한 고객은 헤드폰을 구매한 고객보다 만족도가 높다. (민석 → 서영)

결론 :

판매금액 의미 없을 수 있음, 판매 대수로 틀어 봐야할 수도?

단순히 제품별 평점 차이에서 어떻게 뻗어 갈 수 있는지?

스마트폰 평점 2점과 5점의 차이 vs 헤드폰 1점과 5점의 차이 < 선택 근거는 평점 매긴 수가 비슷함.

90일이 실제로 몇 월인지 그러니까 많은 사람이 90일에 재구매를 많이하는데, 이 90일의 실제 기간이 언제인가요? > 우리는 24년 1월이라고 생각합니다.

가설 생각 이유

목표에 부합하는지에 대한 검증

추가적으로 봐야할 데이터

서영 분석 정리

1-3. 분기별 매출 급 상승 구간이 있을 것이다. > 월별 매출 급 상승구간이 있을 것이다!(재웅)

가설 생각 이유

목표에 부합하는지에 대한 검증

추가적으로 봐야할 데이터

폐기 사유

제품별 판매 성과 분석 및 재고/제품 라인업 최적화 전략 

2-1. 배송 유형에 따라 제품 평점의 평균 값에 유의미한 차이가 있을 것이다. (다혜)

가설 생각 이유

목표에 부합하는지에 대한 검증

추가적으로 봐야할 데이터

결론

히스토그램 일부러 밖에 빼둠.

고객 생애 가치(CLV) 증대를 위한 전략적 제안

3-1. 첫 구매 주문 금액이 높은 고객일 수록 고객 생애 가치가 높다. (혜선)

가설 생각 이유

목표에 부합하는지에 대한 검증

추가적으로 봐야할 데이터

결과

하다보니 중요한 부분

clv를 내가 구하려고 하는 가설에 따라

누적금액인지 그 기준별로 새금액으로 업데이트 할건지 중요

p-value값이 0.000겂이 나와도 효과있냐없냐는 피벨류가아니라(물론 중요하다만) 비지니스 차원에서는 별도의 판단이 필요하다. > A에서 평균 b에서 평균이 0.01차이 가 났는데 0.05보다는 적음. 그러면 왜 회사자원 투입해서 그문제를 해결해? 더 좋은거 가져와! 그러면 프로젝트 하는 우리는 어케함 ? >> 다르다면 추가적인 액션이 필요한데 이에 리소스가 필요함. 우리는 채택을 안한다.

머신러닝 사용시 GPT 프롬포트 (향후 업데이트 예정)

자 지금 부터 내가 배우고 있는 과정에 교본을 알려줄게 넌 이대로 따라서 머신러닝을 해주고 교본에 나와있는 순서대로 왜 그렇게 했는지 설명을 해줘야돼 일목요연하게 오키? 왜냐면 그래야 내가 과제 빵점을 안맞거든

통계 문제 1: 중심 경향치 확인 – 사전 학습 키워드 정리 1. Pandas 문법 관련 키워드 pandas groupby mean median example → 그룹별로 평균과 중앙값을 계산하는 방법 pandas pivot_table multiple aggregation → pivot_table로 여러 통계량(예: mean, median) 한 번에 계산하기 pandas round dataframe to 2 decimals → 소수점 둘째 자리까지 반올림하는 방법 (round(2)) pandas reset index after groupby → groupby 결과를 표 형태로 다시 정리하는 방법 pandas groupby to dataframe → groupby 결과를 DataFrame 형태로 보기 2. 통계 개념 관련 키워드 mean vs median statistics explained → 평균과 중앙값의 차이와 각각의 장단점 why use median instead of mean → 중앙값이 이상치(outlier)에 강한 이유 how outliers affect mean vs median → 이상치가 평균을 왜곡하는 예시 central tendency mean median mode → 중심 경향치 3가지(평균, 중앙값, 최빈값) 비교 3. 실무 응용 관련 키워드 group customer satisfaction by gender python → 성별에 따라 만족도나 평점을 요약하는 분석 예시 seaborn boxplot by category → 범주형 변수 기준으로 수치형 데이터를 시각화 matplotlib groupbar by category → 카테고리별 막대그래프 작성법 학습 추천 순서 Pandas groupby, pivot_table 기본 사용법 익히기 평균과 중앙값의 통계적 의미 이해하기 이상치의 영향과 대표값 선택 기준 학습 실제 데이터를 기준으로 요약통계 및 시각화 실습해보기 통계 문제 2: 가설 설정 – 구글 검색용 핵심 키워드 정리 1. t-검정(t-test) 관련 키워드 python scipy ttest_ind example → 두 집단 평균 비교용 독립표본 t-검정 사용법 scipy.stats ttest_ind equal_var=True → 등분산 가정이 있는 t-검정 수행 방법 how to interpret t test result python → t값과 p값 해석하는 방법 python ttest_ind vs ttest_rel difference → 독립표본 t-검정과 대응표본 t-검정의 차이 2. 가설 설정 및 해석 관련 키워드 how to write null and alternative hypothesis statistics → 귀무가설(H₀)과 대립가설(H₁) 설정 방법 p-value threshold for hypothesis testing → 유의수준 0.05 기준에서 p-value 해석하기 when to reject null hypothesis using p value → p-value를 기준으로 귀무가설 기각 여부 판단 3. 예제 기반 학습 키워드 gender difference t test python example → 성별에 따른 평균 차이 분석 실습 예제 groupby gender and compare mean python → groupby로 그룹 나눈 후 평균 비교하기 학습 추천 순서 ttest_ind() 기본 사용법 익히기 equal_var=True/False 차이 이해하기 t값, p값을 보고 어떻게 결론 내리는지 실습 귀무가설/대립가설 문장 직접 만들어보기 독립표본 vs 대응표본 t-검정 1. 독립표본 t-검정 (Independent t-test) 서로 다른 두 그룹의 평균을 비교할 때 사용 예시: 남학생 vs 여학생의 시험 점수 A 마케팅 전략 그룹 vs B 전략 그룹의 클릭률 두 집단의 사람(또는 실험 대상)이 다르다! 2. 대응표본 t-검정 (Paired t-test) 같은 사람(또는 대상)에게 두 번 측정한 값을 비교할 때 사용 예시: 다이어트 전과 후 몸무게 약 복용 전과 후 혈압 같은 사람이 두 번 측정되었다! 쉽게 구별하는 기준 상황 어떤 t-검정? 서로 다른 그룹 비교 독립표본 t-검정 같은 사람의 전/후 비교 대응표본 t-검정 기억하기 쉬운 말 "사람이 다르면 독립, 사람이 같으면 대응" p-value 기준 설명 일반적인 p-value 기준 유의수준 (α) 기준 설명 해석 예시 0.05 가장 일반적인 기준 p-value ≤ 0.05이면 귀무가설 기각 0.01 매우 엄격한 기준 p-value ≤ 0.01이면 강력한 근거로 귀무가설 기각 0.10 비교적 느슨한 기준 p-value ≤ 0.10이면 약한 수준에서 귀무가설 기각 가능 결론 요약 p-value ≤ 0.05: 귀무가설 기각 → 대립가설 채택 가능 p-value > 0.05: 귀무가설 기각할 수 없음 → 통계적으로 유의하지 않음 해석 문장 예시 p-value가 0.05보다 작으면, 우연히 이런 결과가 나올 확률이 5% 이하이므로 귀무가설을 기각하고 대립가설을 지지할 수 있습니다. t-statistic 해석 가이드 t-statistic 값은 두 집단의 평균 차이가 통계적으로 유의미한지를 나타내는 지표입니다. t-statistic 값이란? 두 집단 평균 차이를 표준화한 값 공식 요약: [ t = \frac{\text{평균 차이}}{\text{표준 오차}} ] |t| 값이 클수록 → 평균 차이 유의미함 → 귀무가설 기각 가능성 ↑ |t| 값이 작을수록 → 평균 차이 거의 없음 → 귀무가설 기각 어려움 t-statistic = 0.5088 해석 t값이 0.5 수준이면 → 두 집단의 평균 차이가 거의 없음 일반적으로: |t| ≥ 2 이면 유의할 수 있음 |t| < 1 이면 차이 없음에 가깝다고 판단 따라서, 귀무가설 기각 어려움 → p-value > 0.05일 가능성이 높음 → 두 집단 평균은 통계적으로 유의미한 차이가 없다고 해석 t-statistic vs p-value 관계 요약 t-statistic 값 (절댓값) 의미 예상되는 p-value 작다 (예: 0.5) 평균 차이 거의 없음 높음 (예: > 0.3) 크다 (예: 2.5 이상) 평균 차이 있음 (유의함) 낮음 (예: < 0.01) t-검정 결과 해석 1. 결과 요약 t-statistic: 0.5088 p-value: 0.6114 2. 가설 설정 귀무가설(H₀): 성별에 따라 리뷰 평점의 평균은 차이가 없다. 대립가설(H₁): 성별에 따라 리뷰 평점의 평균은 차이가 있다. 3. 해석 p-value = 0.6114 > 0.05 → 유의수준 0.05 기준에서 귀무가설을 기각할 수 없다. 따라서, 성별에 따른 리뷰 평점의 평균 차이는 통계적으로 유의하지 않다고 해석할 수 있다. t-statistic = 0.5088은 양수이므로 남성의 평균 리뷰 점수가 여성보다 약간 높지만, 우연히 발생한 차이일 가능성이 높다고 판단된다. 4. 결론 성별(Male/Female)에 따라 리뷰 점수의 평균 차이는 통계적으로 유의미하지 않다. 따라서 리뷰 점수 분석이나 마케팅 전략 수립에 있어 성별은 단독 기준으로 보기 어렵다. 요약 t값과 p값은 방향은 반대지만, 결국 같은 결론을 향합니다. t값 ↑ → p값 ↓ → 차이 있음 t값 ↓ → p값 ↑ → 차이 없음 기억하기 쉬운 말 "t값은 증거의 크기, p값은 우연일 확률" → 증거(t)가 크면, 우연(p)은 작다! 통계 - 도전 문제 (MID LEVEL) [통계] 문제 3: 카이제곱 검정 통계 문제 3: 카이제곱 독립성 검정 – 구글 검색 키워드 정리 1. 카이제곱 독립성 검정 개념 이해 chi square test of independence explained → 카이제곱 독립성 검정이 무엇인지 개념부터 설명 chi square test vs t test → t-검정과 카이제곱 검정의 차이 비교 how to write null hypothesis for chi square test → 카이제곱 검정에서 귀무가설/대립가설 설정 방법 2. Python 실습 관련 키워드 pandas crosstab chi square test → pd.crosstab()으로 교차표 만든 후 카이제곱 검정하는 예제 scipy.stats chi2_contingency example → scipy 라이브러리로 독립성 검정 수행하는 방법 interpret chi square test result python → 카이제곱 통계량과 p-value 해석 방법 3. 실무 응용/시각화 키워드 chi square test categorical variables python → 범주형 변수 간 관계 검정 실습 seaborn heatmap from crosstab → 교차표 시각화를 위한 히트맵 생성 방법 marketing chi square analysis example → 마케팅 데이터에서 카이제곱 검정 활용 예시 핵심 요약 구분 설명 목적 두 범주형 변수 간의 관계(연관성)를 검정 귀무가설(H₀) 두 변수는 관련이 없다 (독립이다) 대립가설(H₁) 두 변수는 관련이 있다 (독립이 아니다) 기준 p-value < 0.05이면 귀무가설 기각 → 통계적으로 유의미한 관계 있음 학습 추천 순서 pd.crosstab()으로 교차표 만들기 chi2_contingency()로 통계량과 p-value 얻기 귀무가설 기각 여부를 p-value 기준으로 해석하기 시각화(heatmap 등)로 결과를 더 명확하게 표현하기 contingency 뜻 (통계에서) 간단 정의 contingency는 통계에서 "범주형 변수 간의 관계를 정리한 표"를 뜻합니다. → 한국어로는 교차표 또는 분할표라고도 부릅니다. t-검정 (T-test) 무엇을 비교? → 두 집단의 평균 차이 데이터 유형: → 수치형(연속형) 데이터 예시: 남성과 여성의 평균 키가 다를까? 카이제곱 검정 (Chi-square test) 무엇을 비교? → 두 변수 간의 분포/비율 차이 (독립성, 적합도) 데이터 유형: → 범주형(카테고리형) 데이터 예시: 성별에 따라 제품 구매 여부가 다를까? 한 줄 요약 t-검정은 평균 차이, 카이제곱 검정은 비율 차이 또는 독립성 검사에 사용 카이제곱 독립성 검정 결과 해석 1. 결과 요약 카이제곱 통계량 (chi): 64.6506 p-value: 0.7186 2. 가설 설정 귀무가설(H₀): Color와 Season은 서로 독립이다 (즉, 관련이 없다) 대립가설(H₁): Color와 Season은 서로 독립이 아니다 (즉, 관련이 있다) 3. 해석 p-value = 0.7186 > 0.05 → 유의수준 0.05 기준에서 귀무가설을 기각할 수 없음 따라서 Color(제품 색상)와 Season(출시 계절)은 통계적으로 독립적이라고 판단됨 → 특정 색상이 특정 계절에 더 자주 등장한다는 통계적 증거는 없다 4. 결론 제품 색상과 출시 계절 사이에 통계적으로 유의한 연관성은 발견되지 않았습니다. 즉, 현재 데이터에서는 특정 색상이 특정 계절에 더 많이 등장하거나 선호된다고 보기는 어렵습니다. 3. 머신러닝 - 필수문제 (EASY LEVEL) [머신러닝] 문제 4: 웹 사이트 방문자 예측 모델 만들기 머신러닝 회귀 성능 평가 지표 regression model evaluation metrics sklearn sklearn rmse 계산 방법 sklearn calculate rmse scikit-learn mean_squared_error 사용법 sklearn.metrics mean_squared_error example numpy 제곱근 함수 (RMSE 계산 시 필요) numpy sqrt usage 선형 회귀 예측 값 구하기 sklearn LinearRegression predict example 회귀모델 평가 지표 비교 mae mse rmse r2 difference scikit-learn 회귀 모델 예제 sklearn linear regression tutorial 머신러닝 rmse round 소수점 제한 round rmse to 2 decimal places python mean_squared_error(y_true, y_pred, squared=False) → RMSE 직접 계산 가능 round(rmse, 2) 또는 format(rmse, ".2f") 사용해서 소수 둘째자리까지 표현 가능 LinearRegression().fit(X, y)로 학습 후 .predict(X)로 예측값 생성 선형 회귀 모델 해석 1. 모델 계수 확인 기울기 (slope): 1.4880 절편 (intercept): 1.0147 2. 회귀식 예측된 방문자 수 (y)는 광고비 지출(x)에 대해 다음과 같은 식으로 계산됩니다: y = 1.4880 * x + 1.0147 여기서, x: 주간 광고비 (단위: 백만 원) y: 예측 방문자 수 (단위: 만 명) 3. 해석 광고비를 1백만 원 추가 지출할 때, 방문자 수는 평균적으로 약 1.488만 명 증가합니다. 광고비를 전혀 지출하지 않아도, 기본적으로 약 1.0147만 명의 방문자가 발생할 것으로 예측됩니다. 4. 예측 예시 광고비가 5.0백만 원일 때: 예측 방문자 수 = 1.4880 * 5.0 + 1.0147 ≈ 8.4547 (만 명) 즉, 약 84,547명의 순 방문자가 발생할 것으로 예측됩니다. EASY LEVEL) [머신러닝] 문제 5: 회귀 모델링 평가하기 회귀 모델 성능 평가 – RMSE 핵심 개념 및 구글 검색 키워드 1. RMSE란? RMSE (Root Mean Squared Error)는 예측값과 실제값의 차이를 제곱한 뒤 평균을 내고, 다시 제곱근을 씌운 값입니다. 값이 작을수록 예측이 잘된 것을 의미합니다. 단위가 원래 데이터와 같아서 직관적입니다. 2. 구글 검색 키워드 (실습 중심) scikit learn calculate rmse → sklearn을 활용한 RMSE 계산법 mean_squared_error sklearn rmse → MSE 함수로 RMSE 구하는 방법 (np.sqrt와 함께 사용) linear regression rmse python example → 선형 회귀 후 RMSE 구하는 전체 예제 sklearn.metrics mean_squared_error documentation → 공식 문서에서 파라미터와 반환값 확인 3. 구글 검색 키워드 (개념 중심) what is rmse in machine learning → 머신러닝에서 RMSE가 어떤 평가 지표인지 설명 rmse vs mae vs r2 → RMSE, MAE, R² 지표의 차이와 비교 interpret rmse value regression → RMSE 값을 어떻게 해석할 수 있는지 예시 4. 예시 코드 흐름 (요약) from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error import numpy as np model = LinearRegression().fit(X_train, y_train) y_pred = model.predict(X_test) rmse = np.sqrt(mean_squared_error(y_test, y_pred)) 주요 지표 설명 1. RMSE (Root Mean Squared Error) 오차를 제곱해 평균 내고 다시 루트를 씌움 이상치에 민감함 직관적이고 자주 사용됨 2. MAE (Mean Absolute Error) 단순히 오차의 절댓값 평균 해석이 쉬우며 이상치에 덜 민감함 RMSE보다 안정적 3. MSE (Mean Squared Error) RMSE의 제곱값 계산은 간단하지만 단위가 커져 해석은 직관적이지 않음 4. R² (결정계수) 1에 가까울수록 예측력이 좋다는 뜻 0이면 예측력이 전혀 없음, 1이면 완벽 예측 음수가 나올 수도 있음 (모델이 평균보다 못한 경우) 5. MAPE (Mean Absolute Percentage Error) 예측 오차를 실제값 대비 백분율로 표현 직관적이지만 실제값이 0에 가까울 땐 불안정해짐 추천 활용 방식 목적 추천 지표 직관적 해석 MAE, RMSE 이상치 민감도 포함 RMSE 정확도 비율 확인 R² 실제값 대비 오차율 확인 MAPE 회귀 모델 평가 결과 (RMSE) 1. 평가 지표: RMSE (Root Mean Squared Error) 계산된 RMSE 값: 0.05 2. RMSE 해석 RMSE는 예측값과 실제값 간 오차의 평균적인 크기를 나타내는 지표입니다. 이번 결과인 0.05는 단위가 만 명이므로, 모델의 예측값은 실제 방문자 수와 평균적으로 약 0.05만 명 = 500명 정도 차이가 납니다. 3. 결론 RMSE 값이 낮을수록 모델의 예측 정확도가 높다고 볼 수 있습니다. 현재 RMSE가 0.05이므로, 이 회귀 모델은 비교적 정확하게 방문자 수를 예측하고 있다고 판단할 수 있습니다. 4. 머신러닝 - 도전 문제 (MID LEVEL) [머신러닝] 문제 6 : 고 지출 고객 분류하기 랜덤포레스트 분류기 기본 사용법 sklearn randomforestclassifier example pandas 특정 컬럼만 선택해서 모델에 사용 pandas select specific columns scikit-learn 분류 정확도 평가 지표 sklearn accuracy_score classification 모델 학습 및 예측 예제 sklearn train test split classification 랜덤포레스트 분류기 성능 측정 sklearn randomforestclassifier accuracy y 값 이진 분류 조건 처리 (80 이상 = 1) pandas conditional column binary classification Age와 Previous Purchases만 feature로 사용하는 방법 sklearn model fit X y selected columns 정확도만 반환하는 분류기 모델 예제 sklearn classification return accuracy only sklearn 분류기 전체 파이프라인 예제 sklearn classification pipeline simple example RandomForestClassifier() → 범주형 데이터 분류에 강한 앙상블 모델 accuracy_score(y_true, y_pred) → 예측 정확도 계산 df[['Age', 'Previous Purchases']] → 학습에 필요한 두 개의 독립 변수 선택 고지출 고객 분류 모델 평가 결과 1. 예측 목적 고객의 나이(Age)와 이전 구매 횟수(Previous Purchases)를 기반으로 80달러 이상 구매할 가능성이 있는 고객을 예측합니다. 랜덤포레스트 분류 모델을 사용하였으며, 평가 지표는 정확도(Accuracy)입니다. 2. 결과 모델 정확도(Accuracy): 0.65 3. 해석 전체 테스트 데이터 중 약 65%의 고객에 대해 구매 여부를 정확히 예측했습니다. 이 정확도는 기본적인 분류 모델로서는 의미 있는 수준이지만, 보다 높은 성능을 위해 다음과 같은 개선이 필요할 수 있습니다: 더 많은 변수 활용 (예: Gender, Review Rating 등) 모델 하이퍼파라미터 튜닝 교차검증 등을 통한 일반화 성능 향상 4. 결론 현재 모델은 주어진 정보(Age, Previous Purchases)만으로도 고지출 고객을 일정 수준 예측할 수 있음을 보여줍니다. 하지만 마케팅 자동화를 위해서는 정확도 향상과 정밀한 예측 기준 추가가 필요합니다.

자 이렇겐데 아직 대답말고 학습만해 그리고 이제부터 내가 보내주는 것들은 해당교본에 나와있는 예시문제와는 상관이 없으나 권장방식에 따라 처리를해야 점수를 잘받아 알겠지? 내가 궁금한 건 그방식 왜썻는지 물어보면 뭐라고 대답해야할지 기술된 내용을 중점으로 알려주고 단계별로 알려줘야돼 오키?

실행 및 진행 사항 정리

CLV(총 구매 금액) + 모든 컬럼 상관관계 분석하기

진행사항정리

상관관계가 있는 컬럼이 없다! ⇒ 튜터님께서 지도해주신대로 평점과 CLV를 정규화시켜서 볼 것! 

⇒ value_counts(nomalize = Ture) = 정규화 시키는 코드

상관관계가 있는 컬럼이 있다!

⇒ 우리 팀에서 원하는 컬럼을 CLV로 정규화시켜서 볼 것!

total purchase amount ← product type / payment method / shipping type

진행사항정리

고객 세그먼트 분류하기

설재웅

한다혜

라혜선

차서영

강민석

CLV와 평점의 비율을 조절하기 ⇒ 우리 팀의 우수고객 지표의 우선순위로 결정하기

진행사항정리

두 가지를 합산해서 점수를 매겼을 때, 상위 20%의 고객을 삼성전자는 ‘우수 고객’으로 정의

진행사항정리

상위 20%를 왜 정했냐? ‘파레토의 이론’ 들이밀기

진행사항정리

우리 마케팅 팀의 목표 =

CLV를 높이자! 지금은 총 구매 금액만 보지만, 다른 영향이 있는 컬럼을 추가해서 

많이 구매하고 ~~~~도 한 고객으로 구체화 시키기

우수고객을 정의하고, 지금까지 봐오고 파왔던 데이터에서 우수고객으로 지정할 수 있는 내용이 뭐가 있는지 걸러내기

전체적인 목표가 설립된다. 

머신러닝을 돌려서 예측할 수 있는 근거가 생긴다.

새롭게 정의된 ‘고객 생애 가치’가 정답 레이블이 되고, 상위 20% 고객(우수 고객)이 y축이 되고, 나머지 80%가 n이 된다. 

상품 타입 별로 가장 많이 팔린 평점 대를 찾으려고 함 = 랩탑, 스마트워치, 태블릿이 3점대에서 판매 건수가 제일 많았음

랩탑, 스마트워치, 태블릿의 판매 건수가 제일 많았고 그 중 평점이 3점대가 제일 많다.  ⇒ 3점대에 묶여있는 상품 타입을 보려고 함

나이, 연령대 확인했지만 유의미한 인사이트를 얻지는 못했음(아쉽)

스마트폰 평점 2점과 5점의 차이 vs 헤드폰 1점과 5점의 차이 ⇒ 고른 이유가 두 그룹의 판매 개수가 비슷하다

스마트폰 평점 2점과 5점이 무슨 차이가 있는지 다각도로 확인함

스마트폰 평점 별 총 구매금액 분포가 제일 의미 있었음 ⇒ 스마트폰 평점을 2점으로 준 고객은 고액 구매자이면서 광범위하게 지출했다. 5점을 준 고객은 소액 지출 고객이다.

총 구매 금액 쪽을 파보면 더 나올 것 같다

정리하고 헤드폰 부분도 똑같이 진행할 것이다.

결과

우리의 목적은 우수고객 유치 또는 유지 입니다.

여기서 우수고객 기준은 모두 동일 합니다. 다만 가중치는 다를 수 있습니다.

각자의 가중치를 정리해서 적어주시면 좋을 것 같습니다.

내일 할일 : 가중치(혜선’s) 별로 고객 세그먼트 다시 분류하기

제가 생각해보니까 혜선님 가중치로만 3분의 세그먼트를 바라보면 될 것 같습니다.(왜냐면 구체적 데이터가 뽑히진 않았으니까.)

비지도학습 ⇒ 고객 클러스터링 / 고객의 군집화 / 군집 알고리즘