◾

목표 설정

e-Reader기를 사용하는 사람이 이탈률이 적을 것이다. 승인님

## e리더기 사용
df_merged['device_type'].value_counts(normalize = True)
Python
복사

##구독플랜의 종류와 함께 확인해봄
df_merged.groupby(['subscription_plan','device_type']).count() / df_merged.count() *100
Python
복사

이탈한 대상 1000명 중에 e리더기 비율이 가장 낮다.

(e리더기 사용자 자체가 적을 가능성이 있다 )

e리더기를 구매한 사용자는 완독할 가능성이 크다

e리더기 사용자들의 행동 패턴 분석하여 다른 기기에 적용해볼 수 있다.

경제/시사 장르를 읽는 사람들의 이탈률이 높을 것이다. 승인님

df_merged['genre'].value_counts(normalize=True)
Python
복사

df_merged['exit_po_group'] = pd.cut(df_merged['exit_position_numeric'],  ##이탈한 위치를 나눔
                                bins=[0,25,50,75,100], 
                                labels=['25% 이하', '25~49%', '50~74%', '75% 이상'], 
                                right = True)


df_merged[df_merged['genre'] =='경제/시사'].value_counts('exit_po_group',normalize=True) ##비율

## 전체 장르 확인
df_merged.groupby(['genre','exit_po_group']).count() ##인원수

#읽고 나간 곳은 거의 비슷. 4구간을 같은 비율로 해서 그런 것 같음.
#나누는 구간의 차이를 두어야 할 것 같아보임.
Python
복사

이탈한 대상 1000명 중에 경제/시사 비율이 가장 낮다.

(경제/시사를 읽는 사람들의 비율이 낮을 수 있다)

경제/시사는 높은 충성도를 가졌을 수 있다.

경제/시사 장르 강화하여 충성도 확립할 수 있다.

경제/시사를 읽는 고객들은 광고 타겟으로 적합할 수 있다.

*25% 이하인 사람들이 미리보기 보고왔는지

연령대가 높은 사람들은 검색 유입 비중이 많을 것이다. 승인님

df_merged['age'] = 2023 - df_merged['birthday_filled'].dt.year+1
df_merged['age_group'] = pd.cut(df_merged['age'], 
                                bins=[0,9,19,29,39,49,59,130], 
                                labels=['0대','10대', '20대', '30대', '40대', '50대', '60대 이상'], 
                                right = True)

## 연령대 높음의 기준을 50대 이상으로 설정

#50대 이상 유입채널 비율
df_merged[df_merged['age']>= 50].groupby('entry_channel').count()
###같
df_merged[(df_merged['age_group']=='50대') | (df_merged['age_group']=='60대 이상')].groupby('entry_channel').count()
Python
복사

연령대가 높은 사람들은 추천으로 유입된 인원의 이탈이 가장 많다.

연령대가 높은 사람들은 외부링크로 유입된 인원의 이탈이 가장 적다.

*기준을 잡는 것 : 90% 이상은 완독했다고

무료 체험이면 이탈률이 높을 것이다. 수민님

가설 오류

•

이탈률의 정의 
이탈률은 (이탈한 사용자 수/전체 사용자 수)로 구할 수 있다. 현재 우리가 갖고 있는 데이터는 이탈한 사람들로만 이루어진 데이터이기에 이탈률을 구할 수 없다. 
 따라서 성별 별 구독 유형 별 이탈자 수 분포를 구하는 것을 목표로 진행했다. 

# 성별 별 / 구독 유형 별로 이탈률 구하기

gender_sub = pd.crosstab(
    df['subscription_plan'],        # 행 인덱스로 사용할 열 지정
    df['user_demographics_gender'], # 열 인덱스로 사용할 열 지정 
    normalize=True,                 # 정규화 (전체 기준으로 비율 계산)
    margins=True,                   # 총계 포함 여부
    margins_name='Total'            # 총계 이름 지정 
    )
print(gender_sub)

>>>
user_demographics_gender  female   male  Total
subscription_plan                             
free_trial                 0.173  0.204  0.377
monthly                    0.167  0.138  0.305
pay_per_book               0.168  0.150  0.318
Total                      0.508  0.492  1.000
Python
복사

•

분석결과

◦

성별과 관계 없이 free_trial 유형의 이탈 비중이 크다. 

◦

성별과 관계 없이 monthly 유형의 이탈 비중이 작다. 

•

인사이트

◦

사용자의 몰입도는 구독 유형에 따라 차이가 있다. 
무료 체험 사용자는 책을 가볍게 탐색하는 경향이 있고, 콘텐츠에 대한 몰입도나 기대치가 낮을 수 있다. 월간 구독자는 금전적 지불을 했기 때문에 책을 끝까지 읽으려는 의지나 목적의식이 더 강할 수 있다. 

◦

성별과 관계 없이 free_trial 유형의 이탈 비중이 크다. 

◦

성별과 관계 없이 monthly 유형의 이탈 비중이 작다. 

eReader를 이용하는 여성중에는 mz 세대가 많을 것이다. 수민님

•

MZ 세대의 정의 : 1980 ~ 2012년 출생자

# mz 세대 구분하기 

birth_year = df['birthday_filled'].dt.year  # 출생 년도 구하기

def mz_gen(year):                           # mz 세대를 구분하는 함수 정의
  if 1980 <= year <=2012:                   # 조건 : 1980년대 ~ 2012년대 
    return True
  else:
    return False

df['is_mz'] = birth_year.apply(mz_gen)      # 새로운 컬럼 is_mz를 만들어 mz 여부 확인하기

# eReader 사용자 중 여성 mz 세대 비율 구하기 

ereader_df = df[df['device_type'] == 'eReader']
total_users = len(ereader_df)

female_ratio = (ereader_df['user_demographics_gender'] == 'female').mean()
mz_ratio = ereader_df['is_mz'].mean()
female_mz_ratio = ereader_df[(ereader_df['user_demographics_gender'] == 'female') & (ereader_df['is mz'])].shape[0] / total_users

female_df = ereader_df[ereader_df['user_demographics_gender'] == 'female']
female_mz_only_ratio = female_df['is_mz'].mean()

result = pd.DataFrame({
    '비율(%)': [female_ratio * 100, mz_ratio * 100, female_mz_ratio * 100, female_mz_only_ratio * 100]
}, index=[
    'eReader 사용자 중 여성 비율',
    'eReader 사용자 중 MZ 세대 비율',
    'eReader 전체 사용자 중 여성 MZ 세대 비율',
    'eReader 여성 사용자 중 MZ 세대 비율'
])

print(result)

print(result)
>>>
                                  비율(%)
eReader 사용자 중 여성 비율           52.054795
eReader 사용자 중 MZ 세대 비율        54.794521
eReader 전체 사용자 중 여성 MZ 세대 비율  25.570776
eReader 여성 사용자 중 MZ 세대 비율     49.122807
Python
복사

•

분석결과

◦

eReader 사용자 중 여성 mz 세대의 비율은 절반이다. 

•

인사이트

◦

mz 세대라고 eReader를 많이 사용하는 것은 아님

검색으로 유입된 사람들은 이탈률이 ㅅ낮을 것이다. 수민님

가설 오류

•

이탈률의 정의 
이탈률은 (이탈한 사용자 수/전체 사용자 수)로 구할 수 있다. 현재 우리가 갖고 있는 데이터는 이탈한 사람들로만 이루어진 데이터이기에 이탈률을 구할 수 없다. 
 따라서 유입 채널 별 이탈자 수 분포를 구하는 것을 목표로 진행했다.

df['entry_channel'].value_counts(normalize=True)

>>>
entry_channel
추천       0.534
홈메인배너    0.210
검색       0.195
외부링크     0.061
Python
복사

•

분석 결과 

◦

검색을 통해 유입된 사람의 비중은 비교적 낮다. 

◦

추천을 통해 유입된 사람의 비중은 비교적 높다.

•

인사이트

◦

검색 유입자는 충성도 또는 완독 가능성이 높은 고객군으로 이탈 확률이 낮아질 수 있다. 

◦

추천 시스템이 사용자의 선호를 파악하지 못해 이탈하는 것 같다.

◦

검색을 통해 유입된 사람의 비중은 비교적 낮다. 

◦

추천을 통해 유입된 사람의 비중은 비교적 높다.
추천 시스템이 사용자의 선호를 파악하지 못해 이탈하는 것 같다.

•

추가적인 데이터 분석 : 사람들이 이탈하는 가장 큰 이유는 무엇일까?

df['dropout_reason_detail_filled'].value_counts(normalize=True)

>>>
dropout_reason_detail_filled
추천 실패    0.325
UX 불편    0.300
지루함      0.130
너무 김     0.130
급한일      0.065
기술 이슈    0.050
Python
복사

•

성별 별 이탈 상세 이유 : 여성 

female = df[df['user_demographics_gender'] == 'female']
print(female['dropout_reason_detail_filled'].value_counts(normalize=True))

>>>
dropout_reason_detail_filled
추천 실패    0.318898
UX 불편    0.291339
너무 김     0.139764
지루함      0.137795
급한일      0.066929
기술 이슈    0.045276
Python
복사

•

성별 별 이탈 상세 이유 : 남성 

male = df[df['user_demographics_gender'] == 'male']
print(male['dropout_reason_detail_filled'].value_counts(normalize=True))

>>>
dropout_reason_detail_filled
추천 실패    0.331301
UX 불편    0.308943
지루함      0.121951
너무 김     0.119919
급한일      0.063008
기술 이슈    0.054878
Python
복사

•

인사이트 

◦

여성과 남성 모두 추천 실패가 가장 큰 이탈 사유였다. 

◦

두 번째 이탈 사유는 UX 불편을 생각할 수 있다. 

이탈 위치가 높을수록 이탈률이 줄어들 것 같다. 준영님

이탈 위치에 따라서는 이탈한 유저에 대한 이탈정도가 같다고 볼 수 있다

위에서 이미 이탈률에 대한 정의를 알려준 바가 있으며 현 데이터는 모두 이탈 고객에 대한 데이터이기에 정확한 이탈률은 구할 수 없다.

하지만 이탈 위치 즉, 독서율이 높은 고객들이 가장 최근까지 이용을 했을 수 있다고 가설을 해석해볼 수 있다.

filtered_df1 = df_merged[df_merged['exit_position_numeric'] >= 50]
filtered_df2 = df_merged[df_merged['exit_position_numeric'] < 50]

specific_date = datetime(2023, 12, 31)

last_access1 = round((specific_date - filtered_df1['last_access_timestamp_filled']).dt.days / 30, 2)
last_access2 = round((specific_date - filtered_df2['last_access_timestamp_filled']).dt.days / 30, 2)

print(last_access1.mean())
print(last_access2.mean())

5.9
6.0
Python
복사

두 그룹 모두 6개월로 비슷하다고 볼 수 있다.

월 구독을 한 사람들의 최종 접속일이 가장 최근일 것이다. 준영님

최종 접속일이 가장 최근인 구독권은 무료 체험자였다. 단권으로 빌리는 고객들은 이용을 덜 한다.

grouped_df = df_merged.groupby('subscription_plan')[['last_access_timestamp_filled']].max()

print(grouped_df)
                  last_access_timestamp_filled
subscription_plan                             
free_trial                 2023-12-31 22:00:48
monthly                    2023-12-31 13:15:06
pay_per_book               2023-12-30 13:55:11
Python
복사

결론적으로는 무료 체험자가 가장 최근에 접속을 했지만 그렇다면 세 구독 종류 중에서 평균적으로 가장 이탈기간이 긴 유형은 어디일까?

# 인원 수
filtered_df = df_merged[df_merged['subscription_plan'] == 'pay_per_book']

specific_date = datetime(2023, 12, 31)
filtered_df['dropout_date'] = round(((specific_date - filtered_df['last_access_timestamp_filled']).dt.days) / 30, 2).count()

print(filtered_df['dropout_date'])

# 평균
filtered_df = df_merged[df_merged['subscription_plan'] == 'pay_per_book']

specific_date = datetime(2023, 12, 31)
filtered_df['dropout_date'] = round(((specific_date - filtered_df['last_access_timestamp_filled']).dt.days) / 30, 2).mean()

print(filtered_df['dropout_date'])

#결론
free_trial 377명 5.692467개월
monthly 305명 5.955016개월
pay_per_book 318명 6.298365개월
Python
복사

전체 이용자들 중에서 평균적으로 가장 오랜 기간동안 이탈을 한 유저는 pay_per_book으로 평균 6.2개월임을 알 수 있다.

1020 사용자 중에는 pay per book 비중이 높아서 이탈률이 높을 것이다.

+ pay per book 구독 유형을 가진 사람들은 이탈률이 50% 미만일 것이고 최근 접속일이 가장 오래됐을 것이다. 준영님

pay_per_book을 이용한 10~20대 여성 고객들 중 50% 미만으로 읽으신 분이 평균적으로 이탈기간이 더 높음을 알 수 있었다.

#정확한 나이대를 알기 위해서는 특정 기준일에서 데이터 birthday 값을 빼야지만 알 수 있었다.
current_year = datetime.now().year
df_merged['age'] = current_year - pd.to_datetime(df_merged['birthday_filled']).dt.year

# 조건 필터링: 여성 유저 & 10~20대 & pay_per_book 구독
filtered_df = df_merged[(df_merged['user_demographics_gender'] == 'female') &
                 (df_merged['age'].between(10, 29)) &
                 (df_merged['subscription_plan'] == 'pay_per_book') &
                 (df_merged['exit_position_numeric'] >= 50)]


specific_date = datetime(2023, 12, 31)
filtered_df['dropout_date'] = round(((specific_date - filtered_df['last_access_timestamp_filled']).dt.days) / 30, 2)
# 여성, 10~20, pay_per_book, 정독률 50 미만일때 21명 35 (56) // 여성, 10~20, pay_per_book 56명 52[m], 55[ft], 56 total : (163)// 여성, 10~19 81명 20~29 82, 30~39 90, 40~49 79, 50~ 59 84, 60~69 81, 100~120 11

# 여성, 10~20, pay_per_book, 정독률 50 미만인 21명의 이탈 기간
# [6.9, 0.3, 6.5, 8.43, 1.63, 5.97, 5.47, 9.47, 11.27, 1.47, 0.17, 1.6, 9.7, 6.57, 5.7, 11.77, 7.17, 4.53, 8.97, 10.23, 1.8]

# 여성, 10~20, pay_per_book, 정독률 50 이상인 35명의 이탈 기간
# [5.63, 2.07, 12.0, 0.93, 5.87, 3.23, 8.47, 10.9, 5.97, 3.93, 11.6, 12.0, 0.13, 10.97, 5.57, 8.83, 6.07, 3.8, 4.53, 6.8, 1.33, 3.87, 2.43, 3.27, 7.23, 3.13, 10.17, 10.37, 0.3, 0.17, 9.83, 6.93, 5.7, 2.93, 1.3]


print(filtered_df['dropout_date'].tolist())
Python
복사

pay_per_book을 이용한 10~20대 여성 고객들 중 50% 미만으로 읽으신 분이 평균적으로 이탈률이 더 높음을 알 수 있었다.

Gruop1 독서율 50% 미만인 10~20대 여성 5.98개월

Gruop2 독서율 50% 이상인 10~20대 여성 5.66개월

웹툰을 읽는 사람들의 이탈률은 더 낮을 것이다. 시현님

[이탈률 기준 설정] 0-40 : 초반 | 40-60 : 중간 | 60-90 : 후반 → 60 미만 이탈률 높다고 기준 (low = 이탈률 | high = 이탈률 )

# 0-40 초반 | 40-60 중간 | 60-90 후반  60 이하 이탈률 높다고 기준
df['is_exit_rate'] = df['exit_position_numeric'] < 60 

# 전체 장르별 이탈률
df_genre_exit_rate 
= df.groupby('genre')['is_exit_rate'] \
	.value_counts(normalize=True) \
	.unstack() \
	.rename(columns={False: 'low', True: 'high'})
df_genre_exit_rate.round(2)
Python
복사

# 여성만 추출
df_female = df.loc[df['user_demographics_gender']=='female']

# 60 이하 기준
df_female['is_exit_rate'] 
= df_female['exit_position_numeric'] < 60  

# 여성 장르별 이탈률
df_genre_exit_rate 
= df_female.groupby('genre')['is_exit_rate']
	.value_counts(normalize=True) \
	.unstack() \
	.rename(columns={False: 'low', True: 'high'})
df_genre_exit_rate.round(2)
Python
복사

[Insight]

남여 성별 구분 없이 데이터 분석 시 경제/시사 다음으로 이탈률이 높다.

여성만 구했을 경우 웹툰 이탈률이 가장 낮다. (60% 이상 읽은 비율이 44%로 가장 높다.)

홈 메인 베너 / 자기계발 + 소설을 본 사람들의 이탈률이 적을 것이다. 시현님