////////
Search
Duplicate

25.07.10 피드백

Tags
Archive
ETA
2025/07/10
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/07/09 02:10
우선 순위
진행률 %
Task : 오전 질문 - 길래 튜터님

어떤 것이 궁금한가요 ?

availability_365 : 1년(365일) 중 예약 가능한 일수
365일이 넘는 값들을 드랍해도 되는지 (수빈 튜터님은 OK 하셨습니당)
1년 넘게 장기 투숙하시는 고객님들도 있지 않을까요? 1250일이 최대!
가격 이상치 처리
1.
상한선을 둬야 하는지 그렇다면 어느 정도의 상한선을 둬야 하는지
2.
천 단위가 넘는 600 달러 이상의 값들은 이상치로 보고 드랍을 하는 게 맞을지?
결측치 제거 1

운영하지 않는 숙소로 판단한 4가지 조건

1.
리뷰 작성 이력이 없음
→ 숙소에 남겨진 리뷰가 한 건도 없음 (last_review 값이 없음)
2.
월별 평균 리뷰 수 없음
→ 최근 몇 달 동안 이용된 흔적이 없음 (reviews_per_month 값이 없음)
3.
누적 리뷰 수가 0건
→ 과거에도 한 번도 리뷰를 받은 적이 없음
4.
예약 가능 일수가 0일
→ 1년 중 단 하루도 예약을 받을 수 없는 상태
# 조건에 맞는 숙소 필터링 inactive_listings = df[ df['last_review'].isnull() & df['reviews_per_month'].isnull() & (df['number_of_reviews'] == 0) & (df['availability_365'] == 0) ] # 해당 숙소 개수 출력 print("운영하지 않는 것으로 판단되는 숙소 수:", len(inactive_listings))
Python
복사
결측치 제거 2
# 지역별 평균, 중앙값, 최대 가격 확인 price_stats = df.groupby('neighbourhood_group')['price'].agg(['mean', 'median', 'max', 'count']).sort_values(by='mean') print(price_stats)
Python
복사
지역별 평균은 최대 200달러 인데,
최대 가격이 너무나 큼. ⇒ but 이상치를 바로 제거 하는 것이 아니라.
비활성 숙소라고
# 1. 고가 숙소 필터링 high_price_df = df[df['price'] > 1000] # 2. 운영되지 않는 고가 숙소만 필터링 (리뷰도 없고 예약도 안받음) inactive_high_price = high_price_df[ high_price_df['last_review'].isnull() & high_price_df['reviews_per_month'].isnull() & (high_price_df['availability_365'] == 0) ] # 3. 고가 숙소 중 운영되는 애들만 남기기 high_price_active = high_price_df.drop(inactive_high_price.index) # 4. 결과 확인 print(f"총 고가 숙소 수: {len(high_price_df)}개") print(f"운영 안 하는 고가 숙소 수: {len(inactive_high_price)}개") print(f"운영 중인 고가 숙소 수: {len(high_price_active)}개") # 5. (선택) 상위 30개 보기 display(high_price_active.head(30))
Python
복사
1.
가격이 1000달러 이상 ( 지역별
2.
리뷰 기록이 한 번도 없음 (last_review 값 없음)
3.
최근 리뷰가 없음 (reviews_per_month 값 없음)
4.
예약 가능 일수가 0일임 (availability_365 = 0)
→ 위 조건은 리뷰도 없고, 최근 활동도 없으며, 예약도 불가능한 숙소를 의미한다고 생각 했습니다.
Task : 오후 질문 - 수빈 튜터님

어떤 것이 궁금한가요 ?

가격 x 리뷰 수 → 수익 파생 컬럼 생성
last_review : NaN값으로만 둬도 되는지
결과

피드백 받은 부분 작성

 last_review : NaN으로 두기 or 말도 안되는 수치를 넣어둠 Ex. 1999-09-01
*복합적으로 할 땐 그 상황에 맞게