목표 + To-do
목표
1.
길래튜터님 피드백 정리
: 가설/ 페르소나/ 결측치
2.
데이터 전처리
To-Do
1.
결측치 구하는 과정 자세하게 적기
2.
WBS 완성
3.
가설 최종 확정
가설 그룹핑
UX(사용자 경험)개선&디바이스 : 3,5,18,19
연령대 기반 사용자 행동 :
추가하기 >> 구독타입등 비교 가능
구독 플랜 & 완독률( 미리보기) >> 미리보기로 읽었는데 초반 이탈률이 매우 높다 = 실제 내용과 미리보기 내용의 괴리가 크다 ,
추천/검색 유입 관련 분석 : 2, 11,16,
독서 시점/시간대 분석 : 4+12합쳐서 특성들을 합쳐 좋은 인사이트를 도출할 수 있을것이다.
→
다른 시간대도 생각해보기
장르별 이탈 시점 : 8,13
→ 모든 장르 생각해보고, 연관해서 생각해보기
4.
길래튜터님 질문 (가설/ 페르소나/ 결측치 피드백)
가설 질문 -
페르소나 질문 -
저번에는 간단하게 적으라고 말씀해주셨는데 예시는 좀 디테일한것같아서요! 어떻게 설정하는게 좋을지 다시 알려주시면 감사하겠습니다!
→
페르소나는 가설에 대한 구체적인 시나리오 정도로 생각하시면 됩니다. 우리는 가설 위주로 정리하고 있기 때문에 페르소나는 깊이있게 신경쓰지 않으셔도 됩니다.
결측치 질문 -
1. 연령대가 유의미한 데이터라고 생각해서 페르소나에 나이를 넣었는데 생년월일 결측치를 어떤걸로 대체하면 좋을지 알고싶습니다!
10개의 null값이라 drop을 해도 될지 혹은 중위수나 평균으로 대체하는 게 맞을까요?
→
해당 유저 수가 적고, birthday가 분석의 주요 기준이라면 → drop 추천.
2.dropout_reason_detail 해당 사항이 없어서 NaN 값인 경우 어떻게 대체하면 좋을지? (null값 350개)
→
dropout_reason_detail 컬럼의 결측치는 단순한 누락이 아닌, ‘자발적 사유가 적용되지 않는 유저’임을 의미하는 의도된 결측입니다.이는 dropout_reason_category가 '자발적'일 때만 세부 사유가 존재하기 때문에 발생한 구조적 특성입니다.따라서 이 NaN 값은 '무의미한 결측치'가 아니라 '해당 없음' 또는 '비자발적 사유'로 명시적으로 대체하는 것이 분석의 정확성과 해석의 일관성을 높일 수 있습니다.결국 이 문제는 단순 결측 처리라기보다, dropout_reason_detail 컬럼을 어떻게 범주화할지에 대한 전략적 판단이 핵심입니다.실무적으로도 이런 조건부 컬럼은 의미 기반 범주 재구성이 중요하며, 분석 목적에 따라 적절한 범주 설계가 필요합니다.
실행 및 진행 사항 정리
결과