////////
Search
Duplicate
🐻

[0616 Task] 2조

Tags
Archive
ETA
2025/06/16
Main Task
Sub Task
담당자
메모
상태
Not started
생성 일시
2025/06/15 16:12
우선 순위
진행률 %
목표 + To-do
목표
1.
길래튜터님 피드백 정리 : 가설/ 페르소나/ 결측치
2.
데이터 전처리
To-Do
1.
결측치 구하는 과정 자세하게 적기
2.
WBS 완성
3.
가설 최종 확정
가설 그룹핑
UX(사용자 경험)개선&디바이스 : 3,5,18,19
연령대 기반 사용자 행동 : 추가하기 >> 구독타입등 비교 가능
구독 플랜 & 완독률( 미리보기) >> 미리보기로 읽었는데 초반 이탈률이 매우 높다 = 실제 내용과 미리보기 내용의 괴리가 크다 ,
추천/검색 유입 관련 분석 : 2, 11,16,
독서 시점/시간대 분석 : 4+12합쳐서 특성들을 합쳐 좋은 인사이트를 도출할 수 있을것이다.
다른 시간대도 생각해보기
장르별 이탈 시점 : 8,13
→ 모든 장르 생각해보고, 연관해서 생각해보기
4.
길래튜터님 질문 (가설/ 페르소나/ 결측치 피드백)
가설 질문 -
한명이 전처리, 나머지는 가설 그룹핑한거 피드백 반영해 수정
컬럼을 복합적으로 보고 분석해 가설을 도출하기 → 최종 마무리
가설 관련해서 구체적 사례를 만들면 되는거.
페르소나 질문 -
저번에는 간단하게 적으라고 말씀해주셨는데 예시는 좀 디테일한것같아서요! 어떻게 설정하는게 좋을지 다시 알려주시면 감사하겠습니다!
페르소나는 가설에 대한 구체적인 시나리오 정도로 생각하시면 됩니다. 우리는 가설 위주로 정리하고 있기 때문에 페르소나는 깊이있게 신경쓰지 않으셔도 됩니다.
결측치 질문 -
1. 연령대가 유의미한 데이터라고 생각해서 페르소나에 나이를 넣었는데 생년월일 결측치를 어떤걸로 대체하면 좋을지 알고싶습니다! 10개의 null값이라 drop을 해도 될지 혹은 중위수나 평균으로 대체하는 게 맞을까요?
해당 유저 수가 적고, birthday가 분석의 주요 기준이라면 → drop 추천.
2.dropout_reason_detail 해당 사항이 없어서 NaN 값인 경우 어떻게 대체하면 좋을지? (null값 350개)
dropout_reason_detail 컬럼의 결측치는 단순한 누락이 아닌, ‘자발적 사유가 적용되지 않는 유저’임을 의미하는 의도된 결측입니다.이는 dropout_reason_category가 '자발적'일 때만 세부 사유가 존재하기 때문에 발생한 구조적 특성입니다.따라서 이 NaN 값은 '무의미한 결측치'가 아니라 '해당 없음' 또는 '비자발적 사유'로 명시적으로 대체하는 것이 분석의 정확성과 해석의 일관성을 높일 수 있습니다.결국 이 문제는 단순 결측 처리라기보다, dropout_reason_detail 컬럼을 어떻게 범주화할지에 대한 전략적 판단이 핵심입니다.실무적으로도 이런 조건부 컬럼은 의미 기반 범주 재구성이 중요하며, 분석 목적에 따라 적절한 범주 설계가 필요합니다.
실행 및 진행 사항 정리
결과