Task : 전처리 및 EDA 진행상황 공유
서지연 :
양재희 :
송기헌 :
이영은 :
곽태현 :
=================================================================
새로운 파생변수 accommodates_group, price_per_person
price_per_person:
사람 1명 기준 비용을 보여줌( 가격/인원수)
총 가격만 보면 비싼지 싼지 판단을 못할 수 있음
공실률을 낮추기 위해서 가격을 올릴지 내릴지 판단을 하거나 가성비 기준 선별로 쓸 수 있다.
accommodates_group:
인원수를 구간으로 묶은 그룹 변수
1~2명: 커플/친구
3~4명: 가족/친구 소그룹
5명: 단체
price_per_person = price / accommodates
총 가격 / 최대 수용 인원 = 1인당 가격 <= 가성비 비교 가능
목적: 숙소 규모가 달라도 1인당 가격이라는 공통 기준으로 비교 가능
또 accommodates_group과 price간의 상관관계는 양의관계인데 규모가 커질수록 가격도 올라감을 알 수 있다.
accommodates_group과 price_per_person의 상관관계는 음의 상관관계이다. 숙소 규모가 커질수록 오히려 1인당 비용은 감소하는 경향이 있다.
1인당 가격을 구하기 위해 price를 accommodates로 나눴다.
1인당 가격 분포를 보면 그래프에는 안보이지만 오른쪽까지 굉장히 길게 이어져 있는데
일부 숙소에서 1인당 가격이 매우 높게 책정이 된 경우가 있지만
대부분의 숙소는 낮은 구간에 몰려 있어서 일부 상위 숙소가 평균값을 끌어올린다.
그래서 평균값보다 중앙값 중심으로 해석해야 함.
값이 몰려 있거나 치우침, 이상치가 좀 있고 분포 확인을 위해 히스토그램을 사용했음
accommodates를 3개의 그룹으로 묶고, countplot을 사용해서 그룹의 갯수를 파악했다.
수용 인원은 1~4인 숙소가 대부분을 차지하는데 그 이상은 급격하게 표본이 줄어든다.
수용 인원을 그대로 쓰는 것보다 그룹화해서 수용인원에 따른 숙소의 갯수 파악을 했다.
1~4인 숙소와 5인 이상의 숙소는 분리해서 데이터 분석할 필요가 있다.
소규모와 대규모 숙소의 가격 차이가 크다 보니, 정교한 가격 컨설팅을 위해서 분리해야 한다.
소규모 숙소는 가격이 인원 1명이 늘어난다 해서 크게 오르지 않지만 수는 적지만
5인 이상 숙소는 인원이 늘수록 가격이 크게 올라가는 경향이 뚜렷하다.
수는 적지만 뉴욕에 큰 규모의 숙소가 적기도 하고 평균적인 매출이 소규모 숙소보다 훨씬 많이 나오기도 하니 컨설팅을 잘해서 적정 가격을 받아 손님을 잘 유치하게끔 하거나 개선 사항을 알려줘 가격을 더 비싸게 받아 매출을 많이 나오게
하는 게 좋겠다.
acc_group과 price의 상관관계를 분석한 그래프
그룹별로 가격이 얼마나 다른지와 평균뿐만 아니라 최댓값, 최솟값, 이상치 등을 한 눈에 알기 위해 박스플롯 사용
수용 인원이 커질수록 총 가격은 상승하며, 양의 상관관계를 알 수 있다.
1~2명 -> 3~4명 구간에서 가격 점프가 크다.
5인 이상 그룹의 경우 가격 분산이 크고 이상치가 많다.
숙소 규모는 가격을 설명하는 핵심 변수인 것을 알 수 있고, 대형 숙소의 가격 편차가 크다.
acc_group과 price_per_person의 상관관계를 분석한 그래프
그룹별로 가격이 얼마나 다른지와 평균뿐만 아니라 최댓값, 최솟값, 이상치 등을 한 눈에 알기 위해 박스플롯 사용
인원이 늘어날수록 1인당 가격은 감소하는 경향
1~2인 숙소는 1인당 비용이 상대적으로 높다.
3~4인, 5인 이상 숙소의 경우 가성비 측면에서 유리함
숙소가 커질수록 전체 가격은 비싸지만 1인당 가격은 저렴해져 음의 상관관계를 나타내며
가성비가 좋아짐을 알 수 있다.
12/23 진행상황
튜터님께 궁금한점
연준튜터님 피드백






