《김연준 튜터 님의 조언》
•
그래프 많이 그리기 → 그래프의 추세를 살피기
•
파생변수 생성 고려 가능
•
페르소나에 빙의 → 딥 다이브 (마치 회사 직원이 된 것처럼!)
《곽승예 튜터 님의 조언》
•
결론을 미리 정해두는 경우 → 결과가 완전히 다르게 나올 수도 있음
•
가설을 세우는 건 ok, 결론은 섣불리 no (가설 ≠ 결론)
걸음수 + 칼로리 + 운동량 → 체중이 얼마나 감소했는지
심박수 ~ 수면 시간
•
활동량, 걸음 수, 수면 품질(실제 수면 시간 / 침대 위 시간) ← 수면 품질 좋은 사람들의
활동량이 칼로리 소모량에 미치는 영향 분석
1.하루 총 걸음수,활동 거리,활동시간이 칼로리에 어떤영향을 미치는가
1.활동량에따라 수면의 질이 달라지는가
2.활동 시간때에 따라 운동효과가 있나
3.활동량에따라 수명이 늘어나는가
4.잠을 언제자야 건강해지는가
5.잠을 늦게자는거와 BMI지수와 상관관계가 있는지
김나희
김영호
이찬혁
정지연
조재민
데이터 정제
•
웨어러블 행동 데이터: 사용자 기준은 좀 널널하게 잡는다 ()
•
단기 데이터만 존재하는 두 명 제거해야 함
•
착용 안 한 사람들: 활동 x 칼로리 소모 o (기초대사량 추정)
→ 해당 아이디 걸음수 0 // 유저가 직접 집계한 거리 수 有
어떻게 할당 할 것 인가?
Id | ActivityDate | TotalSteps | TotalDistance | TrackerDistance | LoggedActivitiesDistance |
2891001357 | 4/1/2016 | 0 | 0 | 0 | 4.828032017 |
분류 기준
•
변수들
◦
활동 강도
◦
걸음 수
◦
활동 거리
◦
활동 시간
◦
소모 칼로리
◦
앉아있는 상태
1
산점도
가로축: 운동강도
세로축: 운동시간
2달치 → 사용자별로 group by → 사용자 별 일 평균 활동 강도/시간
색깔: 강도 빨간색 / 중간 노란색 / 가벼운 사용자 녹색
꺾은선 그래프
가로축 날짜
세로축 강도
전략 수립
가설 검증과 고객 구분
변수들(*) → 칼로리
→ (유의하다 / 유의하지 않다)
→ 유의한 것만 뽑아서 우리의 기준으로 삼는다
당면한 문제 정리
1.
우리의 방향: 고객 구분 → 적당한 마케팅/유저 유지 전략 수립
2.
문제점:
a.
어떤 변수 사용하여 고객 구분할 것인지, 선택 기준
b.
변수를 어떻게 다뤄야할지
i.
칼로리: 사람 별로 다른 기초대사량을 어떻게 처리할 것인지
ii.
3.
고객 구분 기준 : 세그먼트
파생변수: MVPA= ( VeryActiveMinutes + FairlyActiveMinutes )
1.
(꾸준히 하는 / 꾸준히 안 하는)
a.
MVPA(강+중) 시간 일 30분 이상 AND (MVPA 30분 이상)주 3회 이상 → 꾸준히 하는 사람
b.
~ [MVPA(강+중) 시간 일 30분 이상] OR ~ [(MVPA 30분 이상) 주 3회 이상 → 꾸준히 안 하는 사람
2891001357 →ID 제외
6391747486 →ID 제외
2.
(강/중/약)
오후 문제점
해결한 것
1.
.isocalendar().week → 주차별 분류
—> 반박 : 주말/평일 총 발걸음수의 데이터가 많이 차이나지 않음을 보여줌. +시각자료
1.
34월 + 45월 데이터 위아래로 합치기 (union)
2.
유저별 주차별 꾸준함 확인
해결할 것
1.
기준 설정
a.
첫번째 목표: 꾸준한 유저 vs. 안 꾸준한 유저를 구분하는 것
b.
현재: 꾸준한 유저를 정의해야 되는데, 꾸준한 “주” (week)까지만 정의했다
i.
대안 1: 전체 실험 기간 중 MVPA 달성한 날의 비율 기준 분류
2.
.isocalendar().week의 문제점: 1월 1일부터 순차적으로 주차 번호를 부여하다 보니, 우리의 데이터 속 기간 안에서는, 맨 첫 주차와 맨 마지막 주차가 며칠씩 잘린다!
3.
이상치 판별 기준
a.
전 기간 참여하지 않은 ID 삭제 (2개)
b.
수기 입력 아이디 (2891001357)
i.
걸음수 고려 시: 시간(분)은 있는데, 걸음 수가 없음
c.
착용하지 않는 날짜 처리 방법
i.
꾸준한 행동으로 집계된 유저만 대상으로 먼저 분석
ii.
착용하지 않은 날짜가 있는 데이터끼리 모아서 분석
분류 기준 정의
평균 강도: 일 평균 MVPA 시간 30분 이상
•
먼저, 평균 강도 구분
◦
운동러버
◦
운동헤이터
패턴: MVPA 30분 이상 & 주 3회 이상
•
장점:
◦
유저 친화적 (잘 와닿는다): “주 3회 이상 땀 나는 운동을 한 유저들은 ~~~ 한 경향이 있답니다!”처럼 유저들에게 더 명확하고 와닿게 동기를 부여할 수 있음.
◦
착용 기간이 짧은 신규 유저에게도 적용/설득 가능
◦
권위적 근거: 의료 기구, 보건 기구 등의 기준에 따름
•
단점:
◦
새로운 기준을 마련해야 한다:
◦
결측치 다루는 게 어렵다. 일주일에 결측치가 한두 번이라도 껴 있으면 그 주차는 분석에 사용할 수 없다.
MVPA 30분 이상인 일수가 기간 내 70% 이상
•
장점:
•
단점:
상위 그룹 id
목표
•
유저 패턴 나누기 → user segment
•
코드 나눔
김나희
김영호
이찬혁
정지연
조재민




