Task :
어떤 것이 궁금한가요 ?
우수 VS 비우수 선정 기준 (점수화)
•
선정 컬럼
한 달 리뷰 수 | 4 | *4 |
최근 리뷰 날짜 (2018.01.01) | 4 | *4 |
한 달 예상 매출 | 2 | *2 |
→ 세 가지 최대값 1 or 100인 걸로 두고 정규화
→ 곱하기 해주고 나누기 10
— 점수화 —
→ 우수 숙소 기준 : 예시) TOP 20을 우수 숙소라 가정 *2대8 법칙 참고
•
리뷰를 남기는 방문자 10%
•
한 달 리뷰 수 (0값 제외)
◦
0값 제외 안해도 1.09가 평균 (큰 차이 X)
◦
75% 1.58건
•
한 달 리뷰 수 → 월 평균 방문자 수
◦
월 평균 방문자 수
•
기준 상위 25% : 한 달에 2건 이상 리뷰가 작성된 곳은 우수 숙소이다!
•
2 * 10% 20명 방문이니 우수 숙소로 판단
⇒ 의미 X
데이터 필터링
총 리뷰 수 & 최근 날짜 = 0(NaN값)인 10,052개 숙소 제외하고 먼저 점수화 진행
→ 이들은 신규이거나, 비활성 상태일 수 있으므로 일단 분리해서 데이터 분석
365 = 0 인 애가 인기 있거나 오픈 안해서 0이니 같이 보기
365 = 0이 아닌 애들은 중간에 예약된 애들이 있을 수 이쓰니!
FEEDBACK
분포 비교 할 것!
•
실제 한 달 리뷰 수 추이(분포)
•
실제 월 평균 방문자 수 추이
→ 위 두 가지 비교했을 때 동일한 분포를 나타낼 거라 가정하고 그렇게 나오면 하나만 가져갈 것! (중복 제거)
너무 좋거나 나쁠 때 리뷰 작성하는 경우가 많으니 분포 비교 후 결정!
.png&blockId=21b2dc3e-f514-818b-b72b-f9aade6351bf)



