////////
Search
Duplicate

가설 검증_최영은

Tags
Archive
ETA
2025/07/15
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/07/15 00:41
우선 순위
High
진행률 %
Task : 가설 + 통계적 검증!

전체 수익 중 대부분은 숙소를 10개 이상 보유한 전문업자(host)가 차지할 것이다

1) 이들은 주로 도심에 숙소를 집중 보유하고 있다. 2)전문 호스트들이 보유한 숙소는 대부분 private room일 것이다.

“운영 기간(operating_months)이 길수록 인기도 점수(popularity_score)가 높을 것이다.”

실행 및 진행 사항 정리

전체 수익 중 대부분은 숙소를 10개 이상 보유한 전문업자(host)가 차지할 것이다

1) 이들은 주로 도심에 숙소를 집중 보유하고 있다. 2)전문 호스트들이 보유한 숙소는 대부분 private room일 것이다.
실행 코드

분석 결과 1

(월별 합산)
전체 숙소 매출 합계
259,513,738
전문 호스트 매출 합계
19,103,964
전문 호스트 지역 분포
도심
0.695
외곽
0.305
전문 호스트 룸타입 분포
Entire home/apt
0.614
Private room
0.345
Shared room
0.042
전문 호스트 매출 비중 : 전체의 약 7.4%
⇒ 전문업자(10개 이상 보유)는 전체 매출의 소수(7.4%)만 차지하므로,
“대부분을 차지한다”는 가설은 기각. (ㅠㅠ)
전문 호스트 지역 분포 :
도심 69.5%
외곽 30.5%
전문 호스트 지역 분포 :
Entire home/apt:  61.4% Private room:  34.5% Shared room:  4.2%

인사이트

일반 호스트(1~9개 보유) 에 집중하자!
도심 vs 외곽 전략 차별화
도심에 있는 숙소
경쟁 심화 → 특화된 프로모션(예: 프리미엄 사진·청소 서비스)
외곽 숙소
가성비형 캠페인(번들 할인, 체험형 패키지) → 선: 외곽 숙소와 도심 숙소의 가격 비교
전문 호스트 대상 서비스
비중은 작지만, 도심의 Entire home/apt 위주로 보유하고 있으므로(→ 리뷰 대주주)
도심 대형 숙소 관리 전문 티어 서비스
장기 계약·번들 할인 프로그램 제공
흠.. 정말 보유 숙소 수와 매출 간의 관계성은 없을까?

파생 가설1 : “보유 숙소 수가 많을수록 매출 비중도 높다”

귀무가설 H₀: ρ (또는 r) = 0 → “호스트 숙소 수와 매출 비중 간에 상관이 없다”
대립가설 H₁: ρ (또는 r) ≠ 0 (또는 > 0) → “상관이 있다(혹은 양의 상관)
실행 코드

분석 결과 1-1

스피어만 상관계수 분석(순위) : Spearman ρ = 0.264 | p-value = 0.000
피어슨 상관계수 분석(선형) : Pearson r = 0.437 | p-value = 0.000
결과 해석
두 상관계수 모두 양의 상관이 유의미하게 존재, 다만 선형 관계가 더 크게 나타남.
선형 관계(linear): 호스트 수가 늘어날수록 매출 비중도 비교적 (r≈0.44) 강한 비율로 증가
단조(monotonic) 관계: 순위 관점에서는 (ρ≈0.26) 중간~약한 정도로 증가
즉, 호스트 수가 많아질수록 대체로 매출 비중이 올라가지만,
매출 점유율 순위를 완벽히 예측할 만큼 “호스트 수만으로” 서열을 매기기는 어렵다.

확장 가설 1 : “숙소 보유 수가 많을수록 1개당 평균 매출이 높을 것이다.”

실행코드

분석 결과

숙소 보유 수/평균 매출 수
mean
median
count
1-5개
6440.90
2062.50
29922
6-10개
4835.76
2557.34
236
11-20개
8301.16
2994.49
55
21 이상
6243.26
4063.17
37
1–5개(스몰 호스트)
수가 많지만(29,922명) 1개당 매출 중앙값은 2,062$로 가장 낮음
→ “스몰 호스트는 규모는 작아도, 운영 효율이 낮아 1개당 수익이 낮은 편
→ 몇몇의 극단값으로 인해 평균이 높음.
6–10개(중형 호스트)
중앙값 2,557$로 소폭 상승, 평균은 다소 낮음
→ “초기 확장 구간에서는 평균 ROI가 안정화
11–20개(준전문 호스트)
평균·중앙값 모두 가장 높음(mean 8,301$, median 2,994$) → 왜 매출이 높은지 보기!!
규모 경제가 최고로 발휘되는 ‘골든 티어’
21개 이상(전문 호스트)
중앙값은 4,063$로 여전히 높으나, 11–20구간보다는 평균이 다소 낮음
“너무 크면 관리 복잡도가 올라가 1개당 수익성이 약간 떨어지는 구간”일 수 있음

인사이트

1.
준전문 호스트(11–20개 보유) 집중
“골든 티어”로, 1개당 매출이 가장 높은 구간입니다.
이들을 대상으로 프리미엄 관리 패키지장기 운영 계약 프로그램을 제안하면 ROI 극대화 가능
2.
일반 호스트(1–5개) 성장 지원
수는 많지만 수익성은 낮으니,
“첫 5개 숙소 매출 향상 전략”(사진·리뷰·가격 컨설팅)
“스몰 호스트 멘토링·그룹 코칭” 프로그램으로 효율을 끌어올리기
3.
전문 호스트(21개+) 유지·보강
이미 규모는 크지만 1개당 수익이 약간 하락하는 구간
“운영 자동화 툴” 제공, “수수료 할인”으로 관리비용 절감 유도
4.
중형 호스(6–10개) 스케일 업 프로그램
미들티어가 골든 티어로 성장하도록
“6→11개 확장 지원 패키지”(추가 리뷰·예약 증가 인센티브) 설계
준전문 호스트가 1개당 평균 매출이 높은 이유
# 1) 11–20개 호스트만 추출 pro_tier = host_df[host_df['cnt_bin'] == '11–20']['host_id'] # 2) listing-level 데이터에서 이 호스트들 필터 tier_listings = df_filtered[df_filtered['host_id'].isin(pro_tier)] # 3) 룸타입 분포 room_dist = ( tier_listings['room_type'] .value_counts(normalize=True) .mul(100) .round(2) ) print("준전문가(11–20개) 룸타입 분포 (%):") print(room_dist) # 4) 도심/외곽 분포 area_dist = ( tier_listings['city_and_suburb'] .value_counts(normalize=True) .mul(100) .round(2) ) print("\n준전문가(11–20개) 지역 분포 (%):") print(area_dist)
Python
복사
룸 타입
분포
Private room
52.63
Entire home/ap
41.23
Shared room
6.14
지역
분포
도심
54.91
외곽
45.09

결과 해석

준전문가(11–20개) 호스트들은
1.
Private room → 높은 회전율로 안정적 매출
2.
Entire home → 높은 단가로 평균 매출 견인
3.
도심·외곽 병행 운영 → 수익 다변화
이 세 가지 전략을 한꺼번에 실행함으로써,
준전문가”라고 부를 만한 최대 효율 구간에 자리 잡게 된 것입니다.

확장 가설 2 : “보유 숙소가 많을수록 인기도 점수가 높을 것이다.”

실행코드

분석 결과

pop_quartile Q1 Q2 Q3 Q4 cnt_bin
1–5 26.27 24.05 24.22 25.47 6–10 6.38 30.46 35.25 27.90 11–20 13.16 34.04 38.42 14.39 21+ 15.56 42.18 29.53 12.73
cnt_bin/pop_quartile
하위 25%
25–50%
50–75%
상위 25%
1-5
26.27
24.05
24.22
25.47
6-10
6.38
30.46
35.25
27.90
11-20
13.16
34.04
38.42
14.39
21이상
15.56
42.18
29.53
12.73
결과 해석
1–5개 호스트의 경우,
Q1(하위 25%) 숙소 비중이 26.27%
Q4(상위 25%) 숙소 비중이 25.47%
⇒ 하위·상위 비중이 거의 비슷하게 분포.
6–10개 호스트의 경우,
Q4 비중이 27.90%로 가장 높고
Q1 비중은 6.38%로 가장 낮아요.
⇒ “미들티어(6–10개)” 호스트 중 상위 인기 숙소 비중이 가장 크고,
반대로 하위 인기 숙소 비중은 가장 작으므로, 균일하게 인기숙소가 분포해 있음.

인사이트

1.
“6–10개” 호스트가 인기도 관리 최강자
이 구간 호스트들은
상위 인기 숙소(Q4) 비율이 27.9%로 가장 높고
하위 인기 숙소(Q1) 비율이 6.4%로 가장 낮으므로
인기도 편차가 적고, 전체적으로 인기 높은 숙소를 많이 보유.
2.
“11–20개” 호스트는 매출 효율 최강자
앞서 살펴본 1개당 매출에서는 11–20 구간이 가장 우수했지만,
이 구간의 Q4 비중(14.4%)은 오히려 낮은 편.
3.
“1–5개” & “21+개” 호스트 이중 전략 필요
1–5개 호스트는 인기도 편차가 크고,
21+개 호스트는 규모가 크지만 인기도 상위 비율이 낮아
⇒ 이 두 그룹엔 별도 지원 방안을 마련.

가설“운영 기간(operating_months)이 길수록 인기도 점수(popularity_score)가 높을 것이다.”

실행 과정

분석 결과

Spearman ρ = 0.256 (p-value < 0.001) 통계적으로 유의미한(귀무가설 기각) 약한~중간 정도의 양의 상관 존재.
즉, 운영 개월수(경력)가 길수록 인기도 점수가 조금씩 올라가는 경향은 분명히 있지만, 이것만으로 모든 인기도를 설명하긴 어렵다.(ㅠㅠ)
대신, 신규와 경력을 나누어 마케팅 프로모션을 진행하는 것이 효과가 있다는 인사이트를 도출할 수 있을 듯.

인사이트

운영 개월 수 + 라스트 리뷰를 결합해 신규 / 경력 을 구분하면 어떨까?
마케팅 전략 예시
1. 신규 호스트 온보딩
경력이 길어질수록 인기도가 올라가므로, 새로 등록한 호스트가 초기에 빠르게 무난한 인기도를 확보할 수 있게 지원하세요.
예) ‘첫 3개월 리뷰 달성’ 미션 보상, 프로 사진·설명 컨설팅, 청소 지원 패키지
2. 장기 운영 혜택 프로그램
일정 기간(예: 1년) 이상 운영한 호스트에게 이탈 방지용 프로모션 제공
VIP 배지, 수수료 할인, 광고 크레딧 등을 제공
경력 축적 효과를 가속화하고, 더 높은 인기도를 유지하도록 유도.

파생 가설1 : “도심에 위치한 숙소일수록 운영기간이 길 것이다. ”

-> 룸타입별로 수 분석.
실행 코드

분석 결과

city_and_suburb & room_type
mean
median
q25
q75
도심 Entire home/apt
148.80
9.70
1.2
58.30
도심 Private room
222.92
11.40
1.2
76.90
도심 Shared room
167.67
13.80
1.5
92.45
외곽 Entire home/apt
215.40
14.30
1.5
94.25
외곽 Private room
173.25
10.50
1.2
66.70
외곽 Shared room
80.39
5.55
0.8
33.30
Mann-Whitney U p-value (도심 vs 외곽): 0.000 Kruskal-Wallis p-value (룸타입): 0.011

결과 해석

[Mann-Whitney U p-value (도심 vs 외곽): 0.000] - p-value = 0.000 이어도, 0.05 이하이기 때문에 “도심 숙소와 외곽 숙소의 운영 개월수 중앙값이 유의미하게 차이가 난다”라고 판단 가능. [Kruskal-Wallis p-value (룸타입): 0.011] - p-value = 0.011 이므로, “룸타입(Entire vs Private vs Shared)별로 운영 개월수 분포에 유의미한 차이가 있다”라고 판단 가능.
1.
Entire home/apt
도심 median = 9.7개월 vs 외곽 median = 14.3개월 ⇒ 외곽의 Entire home 호스트가 평균적으로 더 오래 운영. ⇒ q75도 외곽 94.3개월 vs 도심 58.3개월로, 장기 운영 비율이 더 높음
2. Private room
도심 median = 11.4개월 vs 외곽 median = 10.5개월 ⇒ Private room은 도심 쪽이 약간 더 오래 운영. ⇒ q75도 도심 76.9개월 vs 외곽 66.7개월
3.
Shared room
도심 median = 13.8개월 vs 외곽 median = 5.55개월 ⇒ 공유실은 도심에서 훨씬 더 오래, 안정적으로 운영. ⇒ q25도 도심 1.5 vs 외곽 0.8으로, 신규 진입 장벽이 낮은 외곽보다 도심에서 더 꾸준히 운영되는 경향
+) 통계모델
검정 이름
대응하는 정규모델
그룹 수
전제(가정)
Mann–Whitney U-test
독립표본 t-검정
2개
독립, 동일 분포(모양)
Kruskal–Wallis H-test
일원배치 ANOVA
≥3개
독립, 동일 분포(모양)
결과

최종 우선순위 제안

1.
중형 호스트(6–10개): 인기도·안정성 최고 → 메인 프로모션 타깃
2.
준전문 호스트(11–20개): 수익 효율 최고 → 프리미엄 관리 패키지
3.
소형 호스트(1–5개): 수익성·인기도 편차 크므로 초기 성장 지원
4.
신규 vs 경력: 온보딩 vs 로열티 프로그램 차별화
5.
일반 호스트(1–9개): 전문업자보다 주력할 마켓 세그먼트
왜? 이렇게 구간을 나눴냐
현재 구간은 “실제 비즈니스 페르소나”(개인 호스트 vs 초기 확장 vs 골든 티어 vs 전문업자)를 모델링하기 위해 임의로 설정한 것
몇 가지 비즈니스 관점에서 의미 있는 “규모 구분”을 만들기 위해 설정:
1.
일반호스(1–5개)
전체 호스트의 대다수(≈77%)가 여기에 속함
“개인 호스트”에 해당하는 가장 기본 구간
2.
중형 호스트(6–10개)
소수가 여기까지 성장해 와서
“규모의 경제가 활성화되기 직전” 단계
3.
준전문호스트(11–20개)
6–10개 구간을 넘어
1개당 매출 효율이 가장 높게 나타나는 구간
4.
전문 호스트(21개+)
전형적 ‘대형 호스트’
규모는 크지만 1개당 효율은 11–20개 구간에 비해 다소 낮아지는 구간