Task :
어떤 것이 궁금한가요 ?
가격
•
각 지역마다 상한선을 upper bound로 해서 최댓값을 상한선으로 정해도 되나요?
•
평균 이하는 저가 / upper bound까지 중가 / 그 외는 고가로 분류
•
+) 균등분할 33%
•
실무에서는? - 특정 룸타입으로 보여지면 아웃라이어가 아닐 수도! / 상황에 맞춰서 처리
인기도 판별 기준
•
한 달 리뷰 수 X 예약 가능 일수 로 인기도를 판별하고 했는데,
•
예상보다 한달 리뷰 수가 평균이 1.37로 달에 한 건으로 데이터가 너무 부족함.
•
0.01도 있어따…
•
실무에서는 지역, 룸타입 별로 평균을 집계해서 상위 몇 퍼센트를 구해 비교하는 식으로 진행을 한다는데,,, 이렇게 해도 되나여?
예약 가능 날짜 수 | 한 달 리뷰 수 | |
인기도 높음 | 적고 | 많을수록 |
인기도 적음 | 많고 | 적을수록 |
수익 내는 방법
# 리뷰 남기는 비율 10%로 설정
df['expected_monthly_revenue'] = (
df['reviews_per_month'] / 0.1 *
df['price'] *
df['minimum_nights']
)
df['expected_monthly_revenue']
Python
복사
결과
피드백 받은 부분 작성
아웃라이어가 아닐 수도 있음 Ex. 만달러인데 룸타입이 그래서 그럴 수도!
도심 내에서 숙소 비교 , 비인기 숙소 지역
인기도 아이디어
: 간접적으로 인기를 알 수 있는 데이터는?
→ 지역/세부지역, 마지막으로 리뷰 쓴 날짜, 룸타입, 한달 간 평균 리뷰 수
→ 점수화
→ 리뷰 많은 곳이 숙소가 더 많겠다
→ 지역별 숙소 개수 확인
→ 숙소 점수 점수화
→ 최근에 리뷰를 쓴 숙소가 인기가 많다
→ 인기 많은 룸 타입별로 점수화
→ 리뷰 수도 점수화
숙소마다 점수를 만들면 인기도를 파악할 수 있지 않을까
지표별로 가중치 : 리뷰 수가 가장 큰 영향을 줄 것 같은 경우 가장 크게
케글 → 스냅샷을 찍어 데이터 발췌 : 예약 가능한 일자
⇒ 예약을 많이 해서인지 / 호스트가 막아놔서인지 알 수 X
→ 다른 컬럼을 보며 유추 필요
Ex. 숙소 리뷰 수
+ 도심 + 365 숫자
= 인기 
<피드백> 나+시현님+피티니
Airbnb 숙소 '인기도 점수화' 설계안
1. 목표
숙소의 인기도를 간접적으로 추정하여
인기 숙소 vs 비인기 숙소를 정량적으로 분류하고,
이를 통해 수익/룸타입/지역별 차이 분석 기반을 마련합니다.
2. 인기도를 추정할 수 있는 주요 데이터
지표 | 의미 | 인기도 추정 방식 |
last_review | 마지막 리뷰 날짜 | 최신일수록 인기도 높음 (날짜 차이 → 정규화) |
reviews_per_month | 월 평균 리뷰 수 | 많을수록 숙소 회전율 높음 → 인기도 ↑ |
number_of_reviews | 누적 리뷰 수 | 리뷰가 많을수록 오랜 기간 수요 유지 가능성 ↑ |
availability_365 | 예약 가능 일수 | 평균보다 낮을 경우 → 인기도 높아 예약 다 찼다고 해석 가능 |
room_type | 숙소 유형 | Entire > Private > Shared 순으로 인기도 가중치 가능 |
neighbourhood_group + neighbourhood | 대도시/지역 | 인기 지역 내 숙소일수록 인기도 ↑ (지역별 수요 반영 필요) |
3. 정규화 + 가중치 적용 방식 (예시)
각 지표를 0~1 사이로 정규화하고, 중요도에 따라 가중치를 부여해
최종 인기도 점수를 계산합니다.
항목 | 설명 | 가중치 (예시) |
last_review_score | 최근 작성일일수록 점수 ↑ | 0.3 |
reviews_per_month_score | 리뷰 자주 발생할수록 ↑ | 0.25 |
number_of_reviews_score | 누적 리뷰 많을수록 ↑ | 0.2 |
availability_score | 예약 가능일이 적을수록 ↑ | 0.1 |
room_type_score | Entire=1, Private=0.6, Shared=0.3 | 0.1 |
region_score | 지역별 수요 기반 (리뷰수 평균 등) | 0.05 |
makefile
복사편집
popularity_score =
(last_review_score * 0.3) +
(reviews_per_month_score * 0.25) +
(number_of_reviews_score * 0.2) +
(availability_score * 0.1) +
(room_type_score * 0.1) +
(region_score * 0.05)
Plain Text
복사
4. 지역 가중치 (region_score) 산정 방법
•
각 neighbourhood_group + neighbourhood 조합별로:
◦
숙소 수
◦
평균 리뷰 수
•
이 데이터를 기반으로 상위 25% 지역 = 1점, 하위 25% = 0.3점 등의 구간 설정
5. 주의할 점 / 해석 고려 요소
•
availability_365는 예약률을 직접 보여주진 않음
→ 예약을 많이 받아서 0이 됐을 수도 있고, 호스트가 닫아놨을 수도 있음
→ 리뷰 수와 함께 고려하여 해석 필요
•
*특이값(예: 10,000달러 숙소)**은 단순 이상치가 아닐 수 있음
→ 룸타입이나 위치 특성 반영해 판단 필요
•
인기도가 수익과 직접 연결되는지 / 룸타입의 영향이 더 큰지 분석 필요
.png&blockId=21b2dc3e-f514-818b-b72b-f9aade6351bf)



