◾

25.07.11 피드백

어떤 것이 궁금한가요 ?

가격

•

각 지역마다 상한선을 upper bound로 해서 최댓값을 상한선으로 정해도 되나요?

•

평균 이하는 저가 /  upper bound까지 중가 / 그 외는 고가로 분류 

•

+) 균등분할 33%

•

실무에서는? - 특정 룸타입으로 보여지면 아웃라이어가 아닐 수도! / 상황에 맞춰서 처리 

인기도 판별 기준

•

한 달 리뷰 수 X 예약 가능 일수 로 인기도를 판별하고 했는데,

•

예상보다 한달 리뷰 수가 평균이 1.37로 달에 한 건으로 데이터가 너무 부족함. 

•

0.01도 있어따… 

•

실무에서는 지역, 룸타입 별로 평균을 집계해서 상위 몇 퍼센트를 구해 비교하는 식으로 진행을 한다는데,,, 이렇게 해도 되나여? 

	예약 가능 날짜 수	한 달 리뷰 수
인기도 높음	적고	많을수록
인기도 적음	많고	적을수록

수익 내는 방법

# 리뷰 남기는 비율 10%로 설정
df['expected_monthly_revenue'] = (
    df['reviews_per_month'] / 0.1 *
    df['price'] *
    df['minimum_nights']
)
df['expected_monthly_revenue']
Python
복사

결과

피드백 받은 부분 작성

하나의 방법으로 균등 분할 33% 해서 나누기도 함

아웃라이어가 아닐 수도 있음 Ex. 만달러인데 룸타입이 그래서 그럴 수도!

인기에 따라서 수익이 차이가 나는 건지, 아니면 룸타입에 따라서 수익이 크게 차이 나는 건지가 궁금했어요!!

도심 내에서 숙소 비교 , 비인기 숙소 지역

인기도 아이디어

: 간접적으로 인기를 알 수 있는 데이터는?

→ 지역/세부지역, 마지막으로 리뷰 쓴 날짜, 룸타입, 한달 간 평균 리뷰 수

→ 점수화

→ 리뷰 많은 곳이 숙소가 더 많겠다

→ 지역별 숙소 개수 확인

→ 숙소 점수 점수화

→ 최근에 리뷰를 쓴 숙소가 인기가 많다

→ 인기 많은 룸 타입별로 점수화

→ 리뷰 수도 점수화

숙소마다 점수를 만들면 인기도를 파악할 수 있지 않을까

지표별로 가중치 : 리뷰 수가 가장 큰 영향을 줄 것 같은 경우 가장 크게

케글 → 스냅샷을 찍어 데이터 발췌 : 예약 가능한 일자

⇒ 예약을 많이 해서인지 / 호스트가 막아놔서인지 알 수 X

→ 다른 컬럼을 보며 유추 필요

Ex. 숙소 리뷰 수 + 도심 + 365 숫자 = 인기

<피드백> 나+시현님+피티니

Airbnb 숙소 '인기도 점수화' 설계안

1. 목표

숙소의 인기도를 간접적으로 추정하여

인기 숙소 vs 비인기 숙소를 정량적으로 분류하고,

이를 통해 수익/룸타입/지역별 차이 분석 기반을 마련합니다.

2. 인기도를 추정할 수 있는 주요 데이터

지표	의미	인기도 추정 방식
last_review	마지막 리뷰 날짜	최신일수록 인기도 높음 (날짜 차이 → 정규화)
reviews_per_month	월 평균 리뷰 수	많을수록 숙소 회전율 높음 → 인기도 ↑
number_of_reviews	누적 리뷰 수	리뷰가 많을수록 오랜 기간 수요 유지 가능성 ↑
availability_365	예약 가능 일수	평균보다 낮을 경우 → 인기도 높아 예약 다 찼다고 해석 가능
room_type	숙소 유형	Entire > Private > Shared 순으로 인기도 가중치 가능
neighbourhood_group + neighbourhood	대도시/지역	인기 지역 내 숙소일수록 인기도 ↑ (지역별 수요 반영 필요)

3. 정규화 + 가중치 적용 방식 (예시)

각 지표를 0~1 사이로 정규화하고, 중요도에 따라 가중치를 부여해

최종 인기도 점수를 계산합니다.

항목	설명	가중치 (예시)
last_review_score	최근 작성일일수록 점수 ↑	0.3
reviews_per_month_score	리뷰 자주 발생할수록 ↑	0.25
number_of_reviews_score	누적 리뷰 많을수록 ↑	0.2
availability_score	예약 가능일이 적을수록 ↑	0.1
room_type_score	Entire=1, Private=0.6, Shared=0.3	0.1
region_score	지역별 수요 기반 (리뷰수 평균 등)	0.05

최종 점수 계산식 예시:

makefile
복사편집
popularity_score =
    (last_review_score * 0.3) +
    (reviews_per_month_score * 0.25) +
    (number_of_reviews_score * 0.2) +
    (availability_score * 0.1) +
    (room_type_score * 0.1) +
    (region_score * 0.05)

Plain Text
복사

4. 지역 가중치 (region_score) 산정 방법

•

각 neighbourhood_group + neighbourhood 조합별로:

◦

숙소 수

◦

평균 리뷰 수

•

이 데이터를 기반으로 상위 25% 지역 = 1점, 하위 25% = 0.3점 등의 구간 설정

5. 주의할 점 / 해석 고려 요소

•

availability_365는 예약률을 직접 보여주진 않음

→ 예약을 많이 받아서 0이 됐을 수도 있고, 호스트가 닫아놨을 수도 있음

→ 리뷰 수와 함께 고려하여 해석 필요

•

*특이값(예: 10,000달러 숙소)**은 단순 이상치가 아닐 수 있음

→ 룸타입이나 위치 특성 반영해 판단 필요

•

인기도가 수익과 직접 연결되는지 / 룸타입의 영향이 더 큰지 분석 필요