1.
액티브 시니어 라는 용어 너무 나이스~!
확실한 레퍼런스 추가하면 신뢰도 업(발표할 때 용어 파생 짧게 언급)
액티브 시니어 = 활동적 장년: 고령화 시대 진입과 함께 파생된 신조어/ 통계청·산업연구원 등에서 사용하는 공식 용어 기반
2.
데이터 전처리 과정 질문 디펜스
a.
로그 변환을 왜 했는지
로그 변환을 하니 정규 분포에 더 부합하는 사실을 시각화를 통해 확인
•
튜터님 조언: 이전 데이터가 안 따른다기보단 이후가 더 따른다고 언급할 것
b. IQR과 Z-Score을 같이 사용한 이유
최대한 데이터를 보수적으로 처리하기 위해
•
튜터님 조언: Z-Score 먼저 ppt에 제시
b-2. 둘 중 하나만 이상치인 값 임계값으로 대체라는 말 잘 이해 안 됨
→ 잘 풀이해서 설명해야 할 듯?
•
예시
이상치 처리는 Z-score와 IQR 두 가지 기준을 함께 사용했습니다.
하나의 기준만 사용하면 이상치를 너무 많이 제거하거나 놓칠 위험이 있기 때문에,
두 기준을 모두 만족시키는 경우에만 ‘확실한 이상치’로 보고 제거했습니다.
경계선 이상치를 완전히 삭제하면 분포가 크게 일그러질 위험이 있어서,
일부 왜곡 가능성이 있더라도 데이터 손실을 최소화하기 위해 임계값으로 대체했습니다.
c. 위의 방식이 로그 스케일과 어떤 관련이 있는지
3.
ppt 시각적으로 제일 깔끔 나이스~!
4.
18조 퀄리티 너무 좋다고 튜터님들끼리 칭찬 자자~~ ㅎ
5.
온라인 샘플 표본 편향을 확신할 순 없음: 말이 좀 위험
노션 페이지에 있는 내용을 그대로 참고한 거라 문제 없음
발표 때 언급할 필요까지 없으나 질문 대비는 할 것
6.
채널 별 고객 세그먼트 구매 패턴 분석에서 ‘선호’라는 용어 쓰지 말 것
부등호를 사용할 것: 크기 비교만 해서 객관적이고 중립적으로 표현
7.
고객 세그먼트 카테고리 선호도 파트: 상의의 구매도가 증가했다고 볼 수 있을까?
압도적으로 줄어든 건 수영복, 언더웨어
→ 상의를 구입하는 총량이 증가한 게 아니라, 수영복을 안 사서 비율적으로 상의 구입 비율이 늘어난 것처럼 보이는 건 아닐지
→ 수영복을 안 사서 비율이 늘어난 건지도 확인하기 불분명
→ 그래프는 그대로 가되, 발표할 때만 ‘총량’ 언급하지 말고 ‘비율’ 기준으로 보수적으로 말할 것
8.
고객 세그먼트 색상 선호도 파트
왼쪽 오른쪽 그래프 통합하는 설명일 때 이해가 됨: 글을 가운데 정렬로 수정
딴지가 걸리면 ‘경향’을 언급할 것: 반드시 따르는 것은 아니기에 보수적으로 답변 가능
9.
결과 도출 및 보고
‘의사결정 도움’ → 의사결정 제안
‘2030 주력’ 기반 용어 제외
10.
ppt를 포트폴리오 관점으로 만든다고 생각하기: 코드를 좀 넣거나 결과창을 추가해도 괜찮을 듯
