Task : 가설 + 통계적 검증!
전체 수익 중 대부분은 숙소를 10개 이상 보유한 전문업자(host)가 차지할 것이다
1) 이들은 주로 도심에 숙소를 집중 보유하고 있다.
2)전문 호스트들이 보유한 숙소는 대부분 private room일 것이다.
“운영 기간(operating_months)이 길수록 인기도 점수(popularity_score)가 높을 것이다.”
실행 및 진행 사항 정리
전체 수익 중 대부분은 숙소를 10개 이상 보유한 전문업자(host)가 차지할 것이다
1) 이들은 주로 도심에 숙소를 집중 보유하고 있다.
2)전문 호스트들이 보유한 숙소는 대부분 private room일 것이다.
실행 코드
분석 결과 1
(월별 합산)
전체 숙소 매출 합계 | 259,513,738 |
전문 호스트 매출 합계 | 19,103,964 |
전문 호스트 지역 분포 | |
도심 | 0.695 |
외곽 | 0.305 |
전문 호스트 룸타입 분포 | |
Entire home/apt | 0.614 |
Private room | 0.345 |
Shared room | 0.042 |
⇒ 전문업자(10개 이상 보유)는 전체 매출의 소수(7.4%)만 차지하므로,
“대부분을 차지한다”는 가설은 기각. (ㅠㅠ)
⇒ 도심 69.5%
외곽 30.5%
⇒ Entire home/apt: 61.4%
Private room: 34.5%
Shared room: 4.2%
인사이트
•
도심에 있는 숙소
◦
경쟁 심화 → 특화된 프로모션(예: 프리미엄 사진·청소 서비스)
•
외곽 숙소
◦
가성비형 캠페인(번들 할인, 체험형 패키지)
→ 선: 외곽 숙소와 도심 숙소의 가격 비교
•
비중은 작지만, 도심의 Entire home/apt 위주로 보유하고 있으므로(→ 리뷰 대주주)
◦
도심 대형 숙소 관리 전문 티어 서비스
◦
장기 계약·번들 할인 프로그램 제공
흠.. 정말 보유 숙소 수와 매출 간의 관계성은 없을까?
파생 가설1 : “보유 숙소 수가 많을수록 매출 비중도 높다”
•
귀무가설 H₀: ρ (또는 r) = 0 → “호스트 숙소 수와 매출 비중 간에 상관이 없다”
•
대립가설 H₁: ρ (또는 r) ≠ 0 (또는 > 0) → “상관이 있다(혹은 양의 상관)
실행 코드
분석 결과 1-1
스피어만 상관계수 분석(순위) : Spearman ρ = 0.264 | p-value = 0.000
피어슨 상관계수 분석(선형) : Pearson r = 0.437 | p-value = 0.000
•
두 상관계수 모두 양의 상관이 유의미하게 존재, 다만 선형 관계가 더 크게 나타남.
•
선형 관계(linear): 호스트 수가 늘어날수록 매출 비중도 비교적 (r≈0.44) 강한 비율로 증가
•
단조(monotonic) 관계: 순위 관점에서는 (ρ≈0.26) 중간~약한 정도로 증가
•
즉, 호스트 수가 많아질수록 대체로 매출 비중이 올라가지만,
◦
매출 점유율 순위를 완벽히 예측할 만큼 “호스트 수만으로” 서열을 매기기는 어렵다.
확장 가설 1 : “숙소 보유 수가 많을수록 1개당 평균 매출이 높을 것이다.”
실행코드
분석 결과
숙소 보유 수/평균 매출 수 | mean | median | count |
1-5개 | 6440.90 | 2062.50 | 29922 |
6-10개 | 4835.76 | 2557.34 | 236 |
11-20개 | 8301.16 | 2994.49 | 55 |
21 이상 | 6243.26 | 4063.17 | 37 |
•
1–5개(스몰 호스트)
◦
수가 많지만(29,922명) 1개당 매출 중앙값은 2,062$로 가장 낮음
◦
→ “스몰 호스트는 규모는 작아도, 운영 효율이 낮아 1개당 수익이 낮은 편”
◦
→ 몇몇의 극단값으로 인해 평균이 높음.
•
6–10개(중형 호스트)
◦
중앙값 2,557$로 소폭 상승, 평균은 다소 낮음
◦
→ “초기 확장 구간에서는 평균 ROI가 안정화”
•
11–20개(준전문 호스트)
◦
평균·중앙값 모두 가장 높음(mean 8,301$, median 2,994$) → 왜 매출이 높은지 보기!!
◦
→ 규모 경제가 최고로 발휘되는 ‘골든 티어’
•
21개 이상(전문 호스트)
◦
중앙값은 4,063$로 여전히 높으나, 11–20구간보다는 평균이 다소 낮음
◦
→ “너무 크면 관리 복잡도가 올라가 1개당 수익성이 약간 떨어지는 구간”일 수 있음
인사이트
1.
준전문 호스트(11–20개 보유) 집중
•
“골든 티어”로, 1개당 매출이 가장 높은 구간입니다.
•
이들을 대상으로 프리미엄 관리 패키지나 장기 운영 계약 프로그램을 제안하면 ROI 극대화 가능
2.
일반 호스트(1–5개) 성장 지원
•
수는 많지만 수익성은 낮으니,
•
“첫 5개 숙소 매출 향상 전략”(사진·리뷰·가격 컨설팅)
•
“스몰 호스트 멘토링·그룹 코칭” 프로그램으로 효율을 끌어올리기
3.
전문 호스트(21개+) 유지·보강
•
이미 규모는 크지만 1개당 수익이 약간 하락하는 구간
•
“운영 자동화 툴” 제공, “수수료 할인”으로 관리비용 절감 유도
4.
중형 호스(6–10개) 스케일 업 프로그램
•
미들티어가 골든 티어로 성장하도록
•
“6→11개 확장 지원 패키지”(추가 리뷰·예약 증가 인센티브) 설계
# 1) 11–20개 호스트만 추출
pro_tier = host_df[host_df['cnt_bin'] == '11–20']['host_id']
# 2) listing-level 데이터에서 이 호스트들 필터
tier_listings = df_filtered[df_filtered['host_id'].isin(pro_tier)]
# 3) 룸타입 분포
room_dist = (
tier_listings['room_type']
.value_counts(normalize=True)
.mul(100)
.round(2)
)
print("준전문가(11–20개) 룸타입 분포 (%):")
print(room_dist)
# 4) 도심/외곽 분포
area_dist = (
tier_listings['city_and_suburb']
.value_counts(normalize=True)
.mul(100)
.round(2)
)
print("\n준전문가(11–20개) 지역 분포 (%):")
print(area_dist)
Python
복사
룸 타입 | 분포 |
Private room | 52.63 |
Entire home/ap | 41.23 |
Shared room | 6.14 |
지역 | 분포 |
도심 | 54.91 |
외곽 | 45.09 |
결과 해석
•
준전문가(11–20개) 호스트들은
1.
Private room → 높은 회전율로 안정적 매출
2.
Entire home → 높은 단가로 평균 매출 견인
3.
도심·외곽 병행 운영 → 수익 다변화
•
이 세 가지 전략을 한꺼번에 실행함으로써,
◦
“준전문가”라고 부를 만한 최대 효율 구간에 자리 잡게 된 것입니다.
확장 가설 2 : “보유 숙소가 많을수록 인기도 점수가 높을 것이다.”
실행코드
분석 결과
pop_quartile Q1 Q2 Q3 Q4
cnt_bin
1–5 26.27 24.05 24.22 25.47
6–10 6.38 30.46 35.25 27.90
11–20 13.16 34.04 38.42 14.39
21+ 15.56 42.18 29.53 12.73
cnt_bin/pop_quartile | 하위 25% | 25–50% | 50–75% | 상위 25% |
1-5 | 26.27 | 24.05 | 24.22 | 25.47 |
6-10 | 6.38 | 30.46 | 35.25 | 27.90 |
11-20 | 13.16 | 34.04 | 38.42 | 14.39 |
21이상 | 15.56 | 42.18 | 29.53 | 12.73 |
1–5개 호스트의 경우,
•
Q1(하위 25%) 숙소 비중이 26.27%
•
Q4(상위 25%) 숙소 비중이 25.47%
⇒ 하위·상위 비중이 거의 비슷하게 분포.
6–10개 호스트의 경우,
•
Q4 비중이 27.90%로 가장 높고
•
Q1 비중은 6.38%로 가장 낮아요.
⇒ “미들티어(6–10개)” 호스트 중 상위 인기 숙소 비중이 가장 크고,
반대로 하위 인기 숙소 비중은 가장 작으므로, 균일하게 인기숙소가 분포해 있음.
인사이트
1.
“6–10개” 호스트가 인기도 관리 최강자
•
이 구간 호스트들은
◦
상위 인기 숙소(Q4) 비율이 27.9%로 가장 높고
◦
하위 인기 숙소(Q1) 비율이 6.4%로 가장 낮으므로
•
인기도 편차가 적고, 전체적으로 인기 높은 숙소를 많이 보유.
2.
“11–20개” 호스트는 매출 효율 최강자
•
앞서 살펴본 1개당 매출에서는 11–20 구간이 가장 우수했지만,
•
이 구간의 Q4 비중(14.4%)은 오히려 낮은 편.
3.
“1–5개” & “21+개” 호스트 이중 전략 필요
•
1–5개 호스트는 인기도 편차가 크고,
•
21+개 호스트는 규모가 크지만 인기도 상위 비율이 낮아
⇒ 이 두 그룹엔 별도 지원 방안을 마련.
가설
“운영 기간(operating_months)이 길수록 인기도 점수(popularity_score)가 높을 것이다.”
실행 과정
분석 결과
•
Spearman ρ = 0.256 (p-value < 0.001)
통계적으로 유의미한(귀무가설 기각) 약한~중간 정도의 양의 상관 존재.
•
즉, 운영 개월수(경력)가 길수록 인기도 점수가 조금씩 올라가는 경향은 분명히 있지만, 이것만으로 모든 인기도를 설명하긴 어렵다.(ㅠㅠ)
⇒ 대신, 신규와 경력을 나누어 마케팅 프로모션을 진행하는 것이 효과가 있다는 인사이트를 도출할 수 있을 듯.
인사이트
운영 개월 수 + 라스트 리뷰를 결합해 신규 / 경력 을 구분하면 어떨까?
1. 신규 호스트 온보딩
•
경력이 길어질수록 인기도가 올라가므로, 새로 등록한 호스트가 초기에 빠르게 무난한 인기도를 확보할 수 있게 지원하세요.
◦
예) ‘첫 3개월 리뷰 달성’ 미션 보상, 프로 사진·설명 컨설팅, 청소 지원 패키지
2. 장기 운영 혜택 프로그램
•
일정 기간(예: 1년) 이상 운영한 호스트에게 이탈 방지용 프로모션 제공
◦
VIP 배지, 수수료 할인, 광고 크레딧 등을 제공
•
경력 축적 효과를 가속화하고, 더 높은 인기도를 유지하도록 유도.
파생 가설1 : “도심에 위치한 숙소일수록 운영기간이 길 것이다. ”
-> 룸타입별로 수 분석.
실행 코드
분석 결과
city_and_suburb & room_type | mean | median | q25 | q75 |
도심
Entire home/apt | 148.80 | 9.70 | 1.2 | 58.30 |
도심
Private room | 222.92 | 11.40 | 1.2 | 76.90 |
도심
Shared room | 167.67 | 13.80 | 1.5 | 92.45 |
외곽
Entire home/apt | 215.40 | 14.30 | 1.5 | 94.25 |
외곽
Private room | 173.25 | 10.50 | 1.2 | 66.70 |
외곽
Shared room | 80.39 | 5.55 | 0.8 | 33.30 |
Mann-Whitney U p-value (도심 vs 외곽): 0.000
Kruskal-Wallis p-value (룸타입): 0.011
결과 해석
[Mann-Whitney U p-value (도심 vs 외곽): 0.000]
- p-value = 0.000 이어도, 0.05 이하이기 때문에 “도심 숙소와 외곽 숙소의 운영 개월수 중앙값이 유의미하게 차이가 난다”라고 판단 가능.
[Kruskal-Wallis p-value (룸타입): 0.011]
- p-value = 0.011 이므로, “룸타입(Entire vs Private vs Shared)별로 운영 개월수 분포에 유의미한 차이가 있다”라고 판단 가능.
1.
Entire home/apt
•
도심 median = 9.7개월 vs 외곽 median = 14.3개월
⇒ 외곽의 Entire home 호스트가 평균적으로 더 오래 운영.
⇒ q75도 외곽 94.3개월 vs 도심 58.3개월로, 장기 운영 비율이 더 높음
2. Private room
•
도심 median = 11.4개월 vs 외곽 median = 10.5개월
⇒ Private room은 도심 쪽이 약간 더 오래 운영.
⇒ q75도 도심 76.9개월 vs 외곽 66.7개월
3.
Shared room
•
도심 median = 13.8개월 vs 외곽 median = 5.55개월
⇒ 공유실은 도심에서 훨씬 더 오래, 안정적으로 운영.
⇒ q25도 도심 1.5 vs 외곽 0.8으로, 신규 진입 장벽이 낮은 외곽보다 도심에서 더 꾸준히 운영되는 경향
+) 통계모델
검정 이름 | 대응하는 정규모델 | 그룹 수 | 전제(가정) |
Mann–Whitney U-test | 독립표본 t-검정 | 2개 | 독립, 동일 분포(모양) |
Kruskal–Wallis H-test | 일원배치 ANOVA | ≥3개 | 독립, 동일 분포(모양) |
결과
최종 우선순위 제안
1.
중형 호스트(6–10개): 인기도·안정성 최고 → 메인 프로모션 타깃
2.
준전문 호스트(11–20개): 수익 효율 최고 → 프리미엄 관리 패키지
3.
소형 호스트(1–5개): 수익성·인기도 편차 크므로 초기 성장 지원
4.
신규 vs 경력: 온보딩 vs 로열티 프로그램 차별화
5.
일반 호스트(1–9개): 전문업자보다 주력할 마켓 세그먼트
왜? 이렇게 구간을 나눴냐
현재 구간은 “실제 비즈니스 페르소나”(개인 호스트 vs 초기 확장 vs 골든 티어 vs 전문업자)를 모델링하기 위해 임의로 설정한 것
몇 가지 비즈니스 관점에서 의미 있는 “규모 구분”을 만들기 위해 설정:
1.
일반호스(1–5개)
•
전체 호스트의 대다수(≈77%)가 여기에 속함
•
“개인 호스트”에 해당하는 가장 기본 구간
2.
중형 호스트(6–10개)
•
소수가 여기까지 성장해 와서
•
“규모의 경제가 활성화되기 직전” 단계
3.
준전문호스트(11–20개)
•
6–10개 구간을 넘어
•
1개당 매출 효율이 가장 높게 나타나는 구간
4.
전문 호스트(21개+)
•
전형적 ‘대형 호스트’
•
규모는 크지만 1개당 효율은 11–20개 구간에 비해 다소 낮아지는 구간
.png&blockId=21b2dc3e-f514-818b-b72b-f9aade6351bf)

