Task : 시각화 그래프에서 인사이트 도출하기
실행 및 진행 사항 정리
1.
미리 보기 사용 비율 막대그래프
사용여부 | 비율 |
미사용 | 0.335 |
사용 | 0.665 |
•
사용 비율이 미사용 비율에 비해 대략 2배 정도 높은 비율을 가지고 있다.
2.
미리 보기 사용 여부에 따른 추천 실패 비율 막대그래프
quick_preview_used | is_reco_fail |
미리 보기 사용 | 0.326316 |
미사용 | 0.322388 |
•
미리 보기 사용자와 미사용자의 추천 실패 비율은 유의미한 차이가 발생하지 않았다.
3.
추천 클릭 후 자발적 이탈 사유 비율 막대 그래프
dropout_reason_detail | count |
추천 실패 | 325 |
지루함 | 71 |
너무 김 | 71 |
급한 일 | 37 |
•
추천 클릭으로 책을 읽으러 들어온 사람들의 자발적 이탈 사유는 ‘추천 실패’가 가장 큰 비중을 차지했다.
4.
완독하지 못한 사용자 중 추천 실패 장르 비율 막대 그래프
genre | proportion |
자기계발 | 0.337553 |
웹툰 | 0.261603 |
소설 | 0.240506 |
경제/시사 | 0.160338 |
•
완독하지 못한 사용자들에게 추천된 장르 중 자기 계발이 가장 높은 비중을 차지했다.
5.
완독자 중 추천 장르 비율 막대그래프
genre | proportion |
소설 | 0.290503 |
자기계발 | 0.284916 |
웹툰 | 0.256983 |
경제/시사 | 0.167598 |
•
완독한 사용자들에게 추천된 장르는 소설이 가장 높은 비중을 차지했지만 자기 계발 장르와 큰 차이는 없었습니다.
6.
완독률 히스토그램과 정규분포 히스토그램 비교
•
참고한 개념: 통계학 입문 교재(OpenIntro Statistics, Introductory Statistics 등)에서는 일반적인 사용자 행동, 시험 점수, 제품 품질 등 다양한 연속형 데이터가 **정규분포(Normal Distribution)**를 따른다고 가정하는 예시를 자주 사용함.
•
완독률 분포는 일반적으로 사용자의 행동 흐름을 시간 또는 비율 단위로 표현하기 때문에, 교육적 예시나 UX 기대 모델에서도 정규분포 기반 시뮬레이션을 종종 활용함.
결과
미리 보기를 사용한 유저의 비율이 높았지만 미리 보기가 추천에 큰 영향을 주지는 않았습니다. 추천 클릭으로 책을 읽으러 들어온 사용자 중 추천 실패로 이탈한 사용자의 비율이 가장 높은 것으로 나타났기 때문에 ‘추천 실패’를 중점적으로 분석하는 것을 목표로 잡았습니다.
완독하지 못한 사용자 중 자기 계발 장르를 읽은 사용자가 가장 높은 비율을 차지했고, 완독한 사용자 중에서는 소설을 읽은 사용자가 가장 높은 비율을 차지했습니다.
경제/시사가 왜 완독 실패 비율도 적고 완독될 비율도 적은가?
1.
추천 실패 비율이 낮다?
→ 추천 시스템이 경제 시사 장르는 잘 안 밀어준다는 뜻
사용자 프로필 상에서 선호도가 낮다고 판단해서 추천이 적다.
애초에 추천 알고리즘에서 노출 비중이 작다
그 결과, 실패율도 낮아 보이는 것입니다. (≠ 좋아서가 아님)
즉, 노출 자체가 적어서 실패도 적은 것으로 생각됩니다.
2.
완독 비율도 낮다
→ 읽기 시작한 사람도 대부분 끝까지 못 읽는다
콘텐츠가 지루하거나, 어렵거나, 실용성이 떨어지거나
정해진 목표 없는 유입일 가능성 높음 (예: 무료 책, 이벤트 책)
자기 계발/웹툰은 가볍게 술술 읽히지만 경제 시사는 지적 피로도↑, 집중도↓
경제 시사는 지금 "존재감도 없고, 재미도 없는 장르"로 인식되고 있습니다.
이걸 띄우려면 추천 노출 자체부터 다시 설계하고, 유입된 사용자들을 묶어둘 UX 전략이 따로 필요하다고 생각합니다.
완독률 히스토그램과 정규분포 비교
※ 실제 전자책 서비스 완독률이 정규분포를 따르지는 않지만, '기대 이상적 시나리오'로써의 비교 기준으로 제시되었습니다.
loc=60: 기대 완독률 평균 60%로 설정
scale=15: 사용자 편차 감안한 표준편차 15% 적용
np.clip(..., 0, 100): 실제 완독률처럼 0~100% 범위로 제한
샘플 수는 실제 데이터 수와 동일하게 맞춰 시각적으로 비교
현재 문제 요약
문제 항목 | 구체적 현상 | 원인 해석 |
추천 실패율 높음 | 사용자가 "추천 실패" 이유로
초반 이탈 | 사용자 관심 장르 예측 실패, 추천 노출 위치 부적절 |
특정 장르 편향 | '자기 계발', '소설'에 집중, '경제/시사' 등은 거의 없음 | 알고리즘 편향 /
사용자 탐색 다양성 부족 |
UX 데이터 부족 | '추천 노출 위치', '노출 수', '첫 노출 후 행동' 등 미수집 | 알고리즘 피드백 루프 단절 |
해결 방안 정리
1. 추천 알고리즘 개선
사용자 별 장르 선호 클러스터링 적용
•
성별 + 연령대 + 과거 클릭 장르 + 평균 완독률 기준으로 페르소나화.
•
장르 → 세부 카테고리 레벨까지 학습 (예: '자기 계발 > 시간 관리')
컨텐츠 탐색 다양성 확보 (Diversity Boosting)
•
사용자 선호 장르만 계속 반복 노출하면 쉽게 질림
•
일정 확률로 다른 장르 섞어주는 알고리즘 도입 (예: Top-N 추천 중 일부 무작위 섞기)
2. 데이터 수집 & 피드백 설계
추천 클릭 기록 보완
•
클릭 여부 + 노출 위치 + 노출 순서 + 미리 보기 여부까지 같이 기록
•
단순 '추천 실패'가 아니라 어디서 끊겼는지 파악 가능해야 함
추천 실패 사유 구체화
•
현재는 그냥 "추천 실패" → 구체적으로 나눌 필요가 있다.
['장르 부적합', '너무 길다', '흥미 없음', '표지만 보고 판단']
3. UX/UI 전면 점검
추천 노출 방식 바꾸기
•
현재 추천 노출 방식이 시작 전에 한번만 등장 or 위치가 구석일 가능성 큼
•
홈 상단 카드형 배치 / 배너화 / 첫 책 종료 후 연계 추천 등 구조 전환
추천-미리 보기 연동
•
추천된 책 중 미리 보기 유도율이 높은 책 우선 노출
•
'추천 + 미리 보기 클릭률' 높은 콘텐츠 우선 정렬
한 줄 정리
지금 추천 알고리즘은 사용자 맥락을 이해하지 못한 채 똑같은 장르만 계속 추천.
이를 해결하려면 사용자 정밀 타겟팅 + 다양성 강화 + 행동 기록 개선 3박자를
맞추어야 할 필요가 있다고 생각합니다.
