대도시별 방타입별 평균 리뷰 수
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns # ✅ 이걸 안해서 오류 난 거예요!
# 데이터 불러오기 (파일 경로에 맞게 설정되어야 함)
df = pd.read_csv('AB_NYC_2019.csv')
# 대도시별 방타입별 평균 리뷰 수 계산
avg_reviews_by_city_room = df.groupby(['neighbourhood_group', 'room_type'])['number_of_reviews'].mean().reset_index()
avg_reviews_by_city_room['rounded_reviews'] = avg_reviews_by_city_room['number_of_reviews'].round(1)
# 시각화: 막대그래프 + 수치 표시
plt.figure(figsize=(12, 6))
barplot = sns.barplot(x='neighbourhood_group', y='number_of_reviews', hue='room_type', data=avg_reviews_by_city_room)
# 막대 위에 리뷰 수 수치 표시
for container in barplot.containers:
barplot.bar_label(container, fmt='%.1f', label_type='edge', fontsize=9)
plt.title('🏠 대도시별 방타입별 평균 리뷰 수 (+ 수치 표시)')
plt.xlabel('대도시 (neighbourhood_group)')
plt.ylabel('평균 리뷰 수')
plt.xticks(rotation=45)
plt.legend(title='방 타입')
plt.tight_layout()
plt.show()
Python
복사
⇒ 나중에 혹시 필요할까봐
인사이트 도출
맨해튼- 아파트 타입이 가장 많은데, 리뷰 수가 제일 적음 ( 문제 발생)
블루클린 - 개인방 타입이 가장 많은데, 아파트 타입 리뷰가 더 많음.
대도시별 리뷰 통계( 평균, 최대 최소)
# 대도시별 리뷰 수 평균, 최댓값, 최솟값 계산
review_stats = df.groupby('neighbourhood_group')['number_of_reviews'].agg(['mean', 'max', 'min']).reset_index()
# 소수점 반올림
review_stats['mean'] = review_stats['mean'].round(1)
# 표 출력
print("📊 대도시별 리뷰 통계 (평균, 최대, 최소)")
print(review_stats)
Python
복사
대도시 별 방타입 별 리뷰 수 분포
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(14, 7))
sns.boxplot(
data=df,
x='neighbourhood_group',
y='number_of_reviews',
hue='room_type'
)
plt.title('📦 대도시별 방타입별 리뷰 수 분포 (Boxplot)')
plt.xlabel('대도시 (neighbourhood_group)')
plt.ylabel('리뷰 수 (number_of_reviews)')
plt.ylim(0, df['number_of_reviews'].max() * 1.05) # 0부터 시작 + 약간의 여유
plt.xticks(rotation=45)
plt.legend(title='방 타입')
plt.tight_layout()
plt.show()
Python
복사
1. 전체 구조 설명
•
x축: 뉴욕의 대도시 구분 (Brooklyn, Manhattan, Queens, Staten Island, Bronx)
•
색깔(범례): 방 타입 구분
◦
◦
◦
•
y축: 리뷰 수 (number_of_reviews)
•
박스플롯 의미:
◦
상자: 25%~75% 범위 (IQR, 중간 50%)
◦
수평선: 중앙값 (Median)
◦
점들: 이상치(Outliers), 즉 평균적인 숙소보다 리뷰 수가 많거나 적은 경우
2. 리뷰 수 분포 특징
Manhattan
•
전반적으로 리뷰 수가 높음.
•
특히 Shared room이 이상치 영역에 많이 분포.
•
리뷰 수 300~600 이상도 다수 → 관광객 유입이 많고 숙소 회전율이 높음을 시사.
Brooklyn
•
Private room의 리뷰 수가 높고 이상치도 다수 존재.
•
Shared room도 상대적으로 리뷰 수 높음.
Queens
•
Entire home/apt의 중앙값이 다른 도시보다 높음.
•
Private room과 Shared room은 그보다 낮지만 일정 이상치 분포가 보임.
Bronx, Staten Island
•
전반적으로 리뷰 수가 낮고 이상치도 많지 않음.
•
숙소 수가 적거나, 이용 빈도가 낮을 수 있음.
•
시장 진입 초기거나, 주거 중심 지역일 가능성.
3. 리뷰 수 이상치
•
위로 흩어진 동그라미들이 이상치들입니다.
•
특히 Manhattan, Brooklyn, Queens 쪽에 500개 이상의 리뷰를 받은 숙소들이 상당히 많음.
•
이는 숙소가 오래 운영되었거나, 매우 인기 있는 숙소일 수 있음을 나타냅니다.
유지느 짱이닭
좋아욝
저의 지피티 해석
그래프 해석 포인트
1. 전체적으로 리뷰 수는 꽤 많은 편이고, 아웃라이어(고리뷰 숙소)가 매우 많음
•
거의 모든 도시에서 300개 이상의 리뷰를 가진 숙소가 다수 존재
•
극단적으로 리뷰가 많은 숙소들은 상위 몇 %에 해당하며, 아마도 오래 운영했거나 인기가 높은 숙소일 가능성이 높음
2. 맨해튼, 브루클린, 퀸즈의 리뷰 수가 전체적으로 높음
•
이 세 도시에서 박스의 위치(중앙값)와 위쪽 수염 길이가 상대적으로 길어
•
즉, 이 도시들에는 자주 예약되고, 자주 리뷰가 달리는 숙소들이 많다
3. 방 타입별 차이
•
◦
모든 도시에서 중앙값이 가장 높거나 비슷 → 가장 인기가 많은 방 유형
◦
특히 퀸즈, 스태튼 아일랜드에서는 꽤 높은 편
•
◦
중간 수준의 분포, 아웃라이어도 존재함
◦
뉴욕 같은 도시에서 상대적으로 저렴하게 묵을 수 있는 선택지로 보임
•
◦
리뷰 수가 확실히 낮음, 중앙값도 낮고 박스도 작음
◦
전반적으로 이용 빈도 낮고 인기 적음
4. 도시별 방타입 특징
도시 | 특징 요약 |
Brooklyn | 모든 방 타입이 고르게 분포하며 아웃라이어도 많음 |
Manhattan | Entire home/apt과 Private room 둘 다 리뷰 많고 인기 있음 |
Queens | Entire home/apt이 두드러지게 높음 (높은 수요 추정) |
Staten Island | Entire home/apt만 상대적으로 리뷰 수 있음 (나머지는 적음) |
Bronx | 전반적으로 리뷰 수 낮음, 인기 숙소 수 적음 추정 |
인사이트 요약
•
“Entire home/apt”은 모든 보로에서 가장 리뷰가 많고, 가장 인기 있는 유형임
•
“Shared room”은 이용자 수와 리뷰 수가 적어 비인기임을 시사
•
맨해튼, 브루클린, 퀸즈는 숙소 이용이 활발한 지역임 (수요 많음)
•
스태튼 아일랜드와 브롱크스는 상대적으로 수요와 리뷰 수가 낮음
마케팅/비즈니스 활용 예시
•
Shared room 숙소의 수익성을 끌어올리고 싶다면?
→ 타겟층 재정의 or 경쟁력 차별화 전략 필요
•
Entire home/apt 숙소 마케팅에 투자하면 ROI가 클 수 있음
•
퀸즈의 entire home 숙소에 리뷰 수가 높다는 점은 의외의 인기 지역으로서 마케팅 포인트가 될 수 있음
.png&blockId=21b2dc3e-f514-818b-b72b-f9aade6351bf)



