완성도 기준
1.
데이터 EDA 및 전처리
•
EDA
◦
데이터 구조와 변수 유형(수치,범주,날짜 등)을 정확히 파악하였는가?
◦
데이터의 분포와 기술 통계를 요약하여 명확히 발표하였는가?
•
데이터 클리닝 및 전처리
◦
데이터의 오류,중복,불일치를 적절히 수정하였는가?
◦
결측치와 이상치를 적절히 탐치하고 처리하였는가?
2.
결과 해석 및 보고
•
결과 해석
◦
결과를 명확히 해석하고 설명하였는가?
◦
결과가 문제 해결에 어떻게 기여했는지 논리적으로 설명하였는가?
•
인사이트 도출
◦
분석 결과를 통해 도출된 인사이트가 유용하였는가?
◦
비지니스 또는 연구에 실질적인 가치를 제공하였는가?
•
문서화 및 비주얼화
◦
프로젝트 과정, 방법론 등 결과 도출을 위한 과정을 명확히 문서화 하였는가?
◦
결과를 효과적으로 시각화하고, 보고서를 명확하고 전문적으로 작성하였는가?
해야할 일
•
분석 고객 요약 및 핵심 행동 흐름 ( 중요도 :
)
타겟 고객의 특징 및 행동 특성 : 페르소나에 대한 설명
•
완독률에 영향을 준 주요 요인 요약 ( 중요도 : 

)
완독 구간 VS 타겟 구간 비교해보기 : 전체 컬럼 확인 후 유의미한 데이터 분리하기
•
완독률 개선을 위한 마케팅 관점의 해결 방안 ( 중요도 :
)
비교한 데이터를 바탕으로 해결 방안 도출
•
해결 방안의 기대 효과 ( 중요도 :
)
실험 설계 OR 가상의 전망
파이썬 코드 정리 파일
피피티 정해진 부분 만들기 / 통합 필요
발표 영상 촬영
•
프로젝트 개요
◦
분석 목적 설명
•
분석 고객 요약 및 핵심 행동 흐름 ( 중요도 :
)
◦
이탈 구간 범위 설명
▪
어떻게 나눴는지, 나눈 이유가 무엇인지 (수민 자료)
◦
타겟 고객의 특징 및 행동 특성 : 페르소나에 대한 설명
•
완독률에 영향을 준 주요 요인 요약 ( 중요도 : 

)
◦
완독 구간 VS 타겟 구간 비교해보기 : 전체 컬럼 확인 후 유의미한 데이터 분리하기
•
완독률 개선을 위한 마케팅 관점의 해결 방안 ( 중요도 :
)
◦
비교한 데이터를 바탕으로 해결 방안 도출
•
해결 방안의 기대 효과 ( 중요도 :
)
◦
실험 설계 OR 가상의 전망
•
기술적으로 새롭게 배운 것에 대한 설명
Task : PPT 흐름
[목차]
•
타겟 그룹(페르소나) 설명
2~3구간을 포함한 타겟군을 50% 초과 확장(4구간 : 완독 가능성이 가장 높은 구간 or 1구간 : 완독 가능성이 가장 낮은 구간 포함)하지 않고도 완독 가능성이 어느 정도 있는 전체 48%에 해당는 사람들을 집중타겟
•
목표 설명 : 2-3 구간의 사용자들을 4-5 구간까지 끌어올리기 & 유료 전환
•
가설 설정 : 20대 중 소설 검색 유입의 비중이 높을 것이다 → 검증 됨 → 이 구간을 타겟으로 설정
•
20대의 특성 (이탈을 많이 하긴 했지만, 유입이 가장 많았다는 것을 의미하기도 함)
◦
소설/웹툰(스토리를 가진 책) 추천 유입의 비중이 높음 : 27% / 52%
◦
소설/웹툰 미리보기 클릭 비중이 높음 : 91% / 71%
→ 타 연령대보다 20대가 유난히 미리보기 클릭률이 높다.
→ 추천을 통해 유입된 20대의 미리보기 클릭률 :
◦
추천 알고리즘을 클릭하지 않은 비율이 높음
◦
데이터 분석 필요 사항
▪
아이디어 구체화하기
•
준영님의 아이디어 : 미리보기 콘텐츠 개선(4컷 만화), 밀리의 도서관(커뮤니티)
•
승인님의 아이디어 : 포인트 제도
20대를 특정하는 외부 데이터 가져오기
예상 효과 예상해보기
파이썬 코드 정리 파일
피피티 정해진 부분 만들기 / 통합 필요
발표 영상 촬영
타겟 구간 VS 완독 구간 비교
1.
실행 및 진행 사항 정리 - PPT에 넣을 내용
•
자주 접하는 장바구니보다 접해보지 못한 를 했을 때 더 배울 것이 많을 것 같다.
•
•
총 5가지 범위 설정
1구간 | 15% 미만 | 140 |
2구간 | 15~40% | 239 |
3구간 | 41~65% | 245 |
4구간 | 66~90% | 278 |
완독 | 90% 초과 | 98 |
•
90% 이상 완독으로 설정 + 이탈 사유 무시하고 데이터 사용하기로 팀원간 합의 O
•
타겟 그룹(페르소나) 설명
완독 가능성이 어느 정도 있는 전체 50%에 해당하는 2~3구간을 포함한 타겟군을 50% 초과 확장(4구간 : 완독 가능성이 가장 높은 구간 or 1구간 : 완독 가능성이 가장 낮은 구간 포함)하지 않고 집중타겟
•
구체적인 이유 1 : 전체 인구의 과반수가 넘인 인원을 타겟으로 삼지 않는 이유는 메세지가 흐려져 일반화 되는 것을 막고, 성과 대비 광고 비용 효율 극대화하기 위해
•
구체적인 이유 2 : 전체 구간에 접근하기 전에 핵심 타겟 50% 정도에서 시장 반응을 측정해, 스케일 업/다운하기 유용한 구간
이탈 구간 비율 | 수 | 비율 |
15% 미만 | 42 | 12.9% |
15 ~ 40% | 86 | |
41 ~ 65% | 78 | |
66 ~ 90% | 92 | |
90% 초과 | 27 | 8.3% |
1구간 | |
2-3 구간 (완독 가능성이 가장 높은 사람) | |
4-5 구간 |
•
구간별로 보면 4구간(66~90%)가 가장 큰 비중을 차지하지만, 팀에서 타겟으로 하는 그룹을 기준으로 나누면 2-3 구간에서의 비중이 가장 크다.
[연령대별 가장 많이 읽은 장르]
10대 | 자기계발 (33%) |
20대 | 소설 & 웹툰 (29%) |
30대 | 자기계발 (32%) |
40대 | 자기계발 (34%) |
50대 | 자기계발 (29%) |
60대 | 자기계발 (39%) |
•
2-3구간 내 있는 유저 기준
•
20대만 다른 연령대와 다르게 소설과 웹툰 비중이 가장 
◦
29% 씩 비중 차지
[연령대별 장르별 유입경로 인사이트]
•
10대 : 모든 장르에서 추천으로 유입이 가장 많이 됨
•
20대 : 다른 장르는 추천이 가장 많은데 소설은 검색으로 유입됨 (36%)
•
30대 : 모든 장르에서 추천으로 유입이 가장 많이 됨
•
40대 : 다른 장르는 추천이 가장 많은데 자기계발은 홈메인배너에서 유입이 가장 많이 됨 (36%)
•
50대 : 모든 장르에서 추천으로 유입이 가장 많이 됨
•
60대 : 모든 장르에서 추천으로 유입이 가장 많이 됨
[연령대별 장르 미리보기 클릭 여부]
•
10대 : 소설을 제외하고 미리보기 클릭 비중
•
20대 : 모든 장르에서 미리보기 클릭
특히 소설은 91% 로 미리보기가 굉장히 높은 비중을 차지함
•
30대 : 경제/시사나 자기계발에서 미리보기 비중이 더 높으나, 소설이나 웹툰은 반반이거나 안 누르는 편
•
40-60대 : 모든 장르에서 미리보기 클릭
[연령대별 장르별 추천 알고리즘 클릭 여부]
•
10대 : 추천 알고리즘 클릭 
•
20대 : 다른 장르는 추천 알고리즘 클릭
소설은 추천 알고리즘 클릭
(64%)
•
30대-40대 : 모든 장르에서 추천 알고리즘 클릭 비중이 높은 편
[연령대별 장르별 중단 사유]
•
10대 : 다른 장르는 추천 실패
웹툰은 UX 불편 (41%) 
•
20대 : 경제/시사 & 소설은 UX 불편, 웹툰은 추천 실패, 자기계발은 너무 김이 주요 원인
•
30대 : 모든 장르에서 추천 실패 
•
40대 : 경제/시사 & 자기계발은 추천 실패, 소설은 너무 김, 웹툰은 UX 불편과 지루함
•
50대 : 모든 장르에서 UX 불편 
•
60대 : 웹툰 UX불편 제외하고 추천 실패
[연령대별 장르별 구독 유형]
•
10대 : 월간 구독을 하는 편이 많지만 자기계발은 단권구매가 가장 높은 편
•
20대 : 경제/시사는 무료체험과 단권구매, 소설은 무료체험, 웹툰은 월간 구독, 자기계발은 단권 구매가 높은 편
•
30대 : 무료 체험을 주로 하지만 소설을 단권구매 비율이 조금 더 큼
•
40대 : 경제/시사와 자기계발은 단권구매, 소설과 웹툰은 무료체험
•
50대 : 경제/시사는 무료체험, 소설은 월간 구독, 웹툰과 자기계발은 단권구매
•
60대 : 경제/시사는 월간 구독, 소설과 웹툰은 무료 체험, 자기계발은 단권구매
결과
1.
사람들의 이탈 사유를 살펴 보니 자발적 사유가 가장 많았다. (65%)
df['dropout_reason_category'].value_counts()
>>>
자발적 650
UX 불편 300
기술 이슈 50
Python
복사
2.
그들의 상세 사유를 살펴 보니 추천 실패가 과반수를 차지했다. (50%)
dropout_reason_myself = df[df['dropout_reason_category'] == '자발적']
dropout_reason_myself['dropout_reason_detail_filled'].value_counts()
>>>
추천 실패 325 (50%)
지루함 130 (20%)
너무 김 130 (20%)
급한일 65 (10%)
Python
복사
3.
추천 실패의 사유로 이탈을 한 사용자들은 어떤 구간에 가장 많을까?
이탈 구간 비율
recommendation_fail = df[df['dropout_reason_detail_filled'] == '추천 실패']
recommendation_fail['exit_po_group'].value_counts()
Python
복사
추천 실패 | UX 불편 | 지루함 | 너무 김 | 급한 일 | 기술 이슈 | |
target
(2-3 구간) | 62 (12.8%) | 31 (6.4%) | 22 (4.5%) | |||
group 1
(1 구간) | 14 (10.0%) | 9 (6.4%) | 11 (7.8%) | |||
group 3
(4-5구간) | 25 (6.6%) | 17 (4.5%) |
•
구간별로 보면 4구간(66~90%)가 가장 큰 비중을 차지하지만, 팀에서 타겟으로 하는 그룹을 기준으로 나누면 2-3 구간에서의 비중이 가장 크다.
•
추천 실패라는 이탈 사유는 단순히 어느 구간에서 특별하게 많은 양상을 나타내진 않지만, 공통적으로 중요한 사유라는 것을 알고 있다.
•
추천 실패 사유에 해당하는 이탈자 중 절반 이상이 2-3 구간에 집중되어 있는 상황이다.
•
따라서 추천 품질의 개선은 2-3 구간 이탈률 개선과 직결과는 전략 포인트이다.








