Task : 우수 VS 비우수 기준 재설정
어떤 컬럼을 선택할까? 가중치는?
다니엘님 | 유진님 | 인영님 | 시현님 | 영은님 | 최종 결론 | |
한 달 리뷰 수 | 35 | 40 | 40 | 40 | 40 | 40 |
최근 리뷰 날짜
(2018.01.01) | 30 | 30 | 30 | 40 | 40 | 40 |
한 달 예상 매출 | 35 | 30 | 30 | 20 | 20 | 20 |
100 | 100 | 100 | 100 | 100 | 100 |
흐름
1. 정규화
2. 타입 분류 우수 선정 확인
3. 365 컬럼 비교
4. 10052 데이터 분석 → 4845 미운영 데이터 제거 후 나머지 분석 → 인사이트 따로 도출
5. 타겟 설정
6. 해결 방안 제시
한 달 리뷰 수 기준 설정 : 뭐가 많은 거고 뭐가 적은 거지?
상위 25% 이상인 값을 가진 숙소는 우수 숙소로 분류
한 달 예상 매출 기준 설정 : 뭐가 높은 거고 뭐가 낮은 거지?
38843개 중에 minimum_nights > 365 이상인 애들은 전부.. 365로 만들어 버리좌!!!!!!!!
minimum_nights 상한가 = “365!!!!!”
⇒ 상한가를 만들어 버리는 거야!!!!!!
상위 25% 이상6120인 값을 가진 숙소는 우수 숙소로 분류
정규화 진행 후 우수 숙소 선정
예시) 2:8 법칙 적용 → TOP 20 우수 숙소 선정!
이상치 값 통일 했던 거!!
가격: 지역 범위 (+룸 타입)
경도/위도 지역 도심 vs 외곽 (파생 컬럼 생성)
최소 숙박일 수 (단기 / 장기)
호스트 범위
인기도 : 예약 가능 날짜 수 + 전체 리뷰 수
실행 및 진행 사항 정리
3시에 해야 할 것
전제 통일
•
더 이상 의문을 갖지 말고, 분석 관점을 통일하여 일관되게 적용
365컬럼 관점 통일
•
availability_365 컬럼을 어떻게 사용할지 명확히 정의
사용 목적:
1. 운영 여부 판단 기준
•
우수 vs 비우수 선정 후, 현재 운영되고 있는 지를 판단할 때 사용
→ 시현 / 영은 / 유진의
2. 보류
•
기타 사용 목적은 아직 명확하지 않음 → 판단 보류
특별히 살펴볼 조건: 10052개 중 4845 제외 후 남은 5207개-> 어떻게 할거야?
•
조건 요약:
리뷰 수 = 0
last_review = NaN
reviews_per_month = NaN
availability_365 ≠ 0
•
해석:
리뷰가 한 번도 없었고,
최근 리뷰 날짜도 없으며,
월 리뷰 수도 없지만
예약 가능일 수는 존재 → 운영 중일 수도 있는 상태
•
TODO:
이 5207개를 어떻게 판단하고 분류할지 결정 필요
우리가 확정된 거(바꾸지 마. )
( 도심/외곽 → 방 타입 별 → 각각의 인기도 )
.png&blockId=21b2dc3e-f514-818b-b72b-f9aade6351bf)




