가설 세우기 및 검증
가설4.
장르별 이탈 시점 : 장르에 따라 이탈 시점에서 통계적으로 유의미한 차이를 보일 것이다.
분석해야 할 칼럼
1.
genre
2.
exit_position_numeric
3.
dropout_reason_category
4.
dropout_reason_detail
4-1. 자기계발과 경제 분야의 이탈 시점이 가장 빠르고 많을 것이다.
장르별 이탈 위치 확인
[장르별 이탈 위치 확인]
+)
장르별 이탈률 확인
→ 장르별 이탈 위치와 이탈률 모두 모든 장르에서 근접한 수치를 보이고 있지 않음.
수치적으로 유의미한 차이를 보이지 않음. 새로운 가설을 검증해보는 것이 나음
4-2. 경제 혹은 자기계발 분야의 독자의 초기 이탈률이 더 높을 것이다.
장르별 초기 이탈률
# 이탈 구간 세분화
bins = [0, 5, 10, 20, 50, 80, 101] # 0-5%, 5-10%, 10-20%, 20-50%, 50-80%, 80-100%
labels = ['0-5%', '5-10%', '10-20%', '20-50%', '50-80%', '80-100%']
# exit_position_numeric을 구간으로 나눈 새로운 컬럼 생성
# right=False: 0% 포함, 5% 미만 / 5% 포함, 10% 미만 등
ebook3['exit_segment'] = pd.cut(ebook3['exit_position_numeric'], bins=bins, labels=labels, right=False, include_lowest=True)
# 자기계발 및 경제 장르만 필터링
target_genres_df = ebook3[ebook3['genre'].isin(['자기계발', '경제/시사'])]
# 각 장르별 이탈 구간 비율 계산 (normalize=True로 비율 확인)
genre_segment_ratio = pd.crosstab(target_genres_df['genre'], target_genres_df['exit_segment'], normalize='index') * 100
genre_segment_ratio
Plain Text
복사
+) 그렇다면 다른 분야의 구간별 이탈율은?
→ 소설과 웹툰의 초기 이탈율이 3-5% 가량 더 높음
4-3. 경제 혹은 자기계발 분야의 독자는 자발적 사유 중 너무 길거나 지루하다는 이유로 이탈할 것이다.
장르별 이탈사유
번외.
last_access_timestamp 이탈이 많이 발생하는 시간대와 요일
장르별 이탈 시간
칼럼 합치기 및 결과
# 평균 이탈 위치와 이탈률 데이터프레임
summary_df = pd.DataFrame({
'평균 이탈 위치': exit_mean,
'이탈률': exit_rate
}).reset_index()
#reason_counts 를 데이터프레임으로 변환
reason_df = reason_counts.rename('count').reset_index()
#summary_df 와 reason_df 를 merge
result_df = pd.merge(reason_df, summary_df, on='genre', how='left')
result_df
Plain Text
복사
결론
가설 4: 장르별 이탈 시점 분석 결과
가설 4는 '장르에 따라 이탈 시점에서 통계적으로 유의미한 차이를 보일 것이다'라는 내용이었으며, 세부적인 가설 4-1, 4-2, 4-3을 통해 분석을 진행했습니다.
4-1. 자기계발과 경제 분야의 이탈 시점이 가장 빠르고 많을 것이다.
•
장르별 평균 이탈 위치 확인: 모든 장르에서 평균 이탈 위치가 50%에 근접하여 유의미한 차이를 발견하기 어려웠습니다.
•
장르별 이탈률 확인: 모든 장르에서 이탈률이 0.9x로 매우 유사하여, 이 또한 유의미한 차이를 보이지 않았습니다.
결론: 가설 4-1은 현재 데이터로는 지지되지 않습니다.
4-2. 경제 혹은 자기계발 분야의 독자의 초기 이탈률이 더 높을 것이다.
•
장르별 초기 이탈률: '미시작'과 '초반이탈'을 초기 이탈로 정의하여 분석한 결과, 소설과 웹툰 장르의 초기 이탈률이 자기계발 및 경제/시사 장르보다 3~5%가량 더 높게 나타났습니다.
•
이탈 구간 세분화:
◦
자기계발/경제/시사: 초기 구간('0-5%', '5-10%', '10-20%')의 이탈률이 소설/웹툰에 비해 낮았습니다.
◦
소설/웹툰: 초기 구간('0-5%', '5-10%', '10-20%')의 이탈률이 자기계발/경제/시사에 비해 높게 나타났습니다.
결론: 가설 4-2는 기각되며, 오히려 소설과 웹툰 장르에서 초기 이탈률이 더 높다는 유의미한 결과를 얻었습니다.
4-3. 경제 혹은 자기계발 분야의 독자는 자발적 사유 중 너무 길거나 지루하다는 이유로 이탈할 것이다.
•
장르별 이탈 사유: '추천 실패'가 모든 장르에 걸쳐 가장 많은 이탈 사유로 나타났습니다. '너무 길거나 지루하다'는 특정 장르에서 두드러지는 경향을 보이지 않았습니다.
결론: 가설 4-3은 현재 데이터로는 지지되지 않습니다. ‘자발적 이유’ - '추천 실패'가 주요 이탈 사유로 나타났다는 점이 더 유의미합니다.
번외 분석: 시간대별 및 요일별 이탈
•
요일별 이탈: 특정 요일에 이탈이 집중되는 경향은 뚜렷하게 나타나지 않았습니다.
•
시간대별 이탈: 오전 10시~오후 1시 사이, 그리고 저녁 7시~8시 사이에 이탈률이 가장 높게 나타났습니다. 이 결과는 유의미하며, 독서 활동 패턴과 관련된 중요한 인사이트를 제공합니다.
질문 사항
-세워둔 가설이 위와 같이 모두 예상한 결과에서 빗나갔을 경우엔 추가적으로 다른 칼럼을 분석하면서
더 세부적으로 검증하려 해야할 지 궁금합니다.
⇒ 네, 가설이 부정되었더라도 탐색적 분석(EDA)를 지속해보는 것이 매우 중요합니다. 특히 관련 변수를 함께 조합하여 다층적 분석을 시도해 보세요.
-4-1번 그리고 4-2번의 가설을 마지막 결과처럼 하나의 데이터로 합쳐서 보는 것이 맞는지 궁금합니다.
⇒ 반대로 전체적인 이탈 행동을 먼저 파악하고 이어서 이탈시점((4-1)과 이탈사유(4-2)를 추가 분석해 가는 방식으로 정리하면 좋을듯 합니다. 어떤 맥락에서는 위 질문과 유사한 질문 입니다.
추가제안 : 지금 단계 시각화로 데이터를 출력해 보시면 데이터에 대해 더 깊은 이해가 될거 같습니다.







