////////
Search
Duplicate

우수 VS 비우수 기준 재설정

Tags
Archive
ETA
2025/07/14
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/07/14 01:52
우선 순위
High
진행률 %
Task : 우수 VS 비우수 기준 재설정

 어떤 컬럼을 선택할까? 가중치는?

다니엘님
유진님
인영님
시현님
영은님
최종 결론
한 달 리뷰 수
35
40
40
40
40
40
최근 리뷰 날짜 (2018.01.01)
30
30
30
40
40
40
한 달 예상 매출
35
30
30
20
20
20
100
100
100
100
100
100

 흐름

 조건 1) 도심/외곽 별 편차
 조건 2) 룸 타입 별 편차
 우수 VS 비우수 숙소 기준 설정 → 조건별 세분화
정규화 진행 → 우수 숙소 선정
 365 컬럼까지 같이 분석 → 운영 / 미운영 처리 방안 토론
 목표 타겟 설정
 해결 방안 제시
1. 정규화
2. 타입 분류 우수 선정 확인
3. 365 컬럼 비교
4. 10052 데이터 분석 → 4845 미운영 데이터 제거 후 나머지 분석 → 인사이트 따로 도출
5. 타겟 설정
6. 해결 방안 제시

 한 달 리뷰 수 기준 설정 : 뭐가 많은 거고 뭐가 적은 거지?

 최근 날짜 & 한 달 리뷰 수 원래 NaN값 10,052개 분류해서 점수화 및 데이터 분석
상위 25% 이상인 값을 가진 숙소는 우수 숙소로 분류

 한 달 예상 매출 기준 설정 : 뭐가 높은 거고 뭐가 낮은 거지?

38843개 중에 minimum_nights > 365 이상인 애들은 전부.. 365로 만들어 버리좌!!!!!!!!

minimum_nights 상한가 =365!!!!!”

⇒ 상한가를 만들어 버리는 거야!!!!!!
상위 25% 이상6120인 값을 가진 숙소는 우수 숙소로 분류

 정규화 진행 후 우수 숙소 선정

예시) 2:8 법칙 적용 → TOP 20 우수 숙소 선정!
이상치 값 통일 했던 거!!

 가격: 지역 범위 (+룸 타입)

 경도/위도 지역 도심 vs 외곽 (파생 컬럼 생성)

 최소 숙박일 수 (단기 / 장기)

 호스트 범위

 인기도 : 예약 가능 날짜 수 + 전체 리뷰 수

실행 및 진행 사항 정리

3시에 해야 할 것

전제 통일

더 이상 의문을 갖지 말고, 분석 관점을 통일하여 일관되게 적용

365컬럼 관점 통일

availability_365 컬럼을 어떻게 사용할지 명확히 정의

사용 목적:

1. 운영 여부 판단 기준
우수 vs 비우수 선정 후, 현재 운영되고 있는 지를 판단할 때 사용
시현 / 영은 / 유진의
2. 보류
기타 사용 목적은 아직 명확하지 않음 → 판단 보류

특별히 살펴볼 조건: 10052개 중 4845 제외 후 남은 5207개-> 어떻게 할거야?

조건 요약:
리뷰 수 = 0
last_review = NaN
reviews_per_month = NaN
availability_365 ≠ 0
해석:
리뷰가 한 번도 없었고,
최근 리뷰 날짜도 없으며,
월 리뷰 수도 없지만
예약 가능일 수는 존재 → 운영 중일 수도 있는 상태
TODO:
5207개를 어떻게 판단하고 분류할지 결정 필요
우리가 확정된 거(바꾸지 마. )
( 도심/외곽 → 방 타입 별 → 각각의 인기도 )