/////
Search
🔥

[데이터 분석 EDA]

Tags
Archive
ETA
2025/12/18 → 2025/12/26
Main Task
Sub Task
담당자
메모
상태
In progress
생성 일시
2025/12/18 07:34
생성자
우선 순위
진행률 %
Task : 데이터 분석 EDA
1.
위치
2.
숙소정보
3.
리뷰
위 컬럼들에 대해서 EDA까지 개인별로 진행, 이후에 나온 인사이트를 통합하여 추후 방향성 재검토 및 머신러닝 분석 방향 결정
실행 및 진행 사항 정리
(1차회의) 12.18. - 데이터셋을 살펴본 뒤 에어비엔비 데이터셋에 어떻게 접근하면 좋을지
1.
숙소정보에 따라 가격예측
2.
숙소특성, 위치, 리뷰에 따른 가격예측
3.
전부
EDA 완성이 목적이 아니고 방향 잡는 것을 우선으로 한다. 최대한 기초프로젝트나 특강 자료 보고 공부와 병행하면서 본인이 진행한 분석에 대한 이유, 인사이트가 있으면 회의때 수월할 것 같기 때문. 내일 회의 때는 인사이트를 갖고 추후 프로젝트 방향같은걸 정한다. 인사이트가 많다면 줄이는 방식으로, 적다면 확장하는 식으로 가겠다. 기간은 여유있게 잡은 기간 안에서 한번 더 여유있게 잡은거라 강박적으로 기간안에 맞춰야지 같은 식의 생각보다는 최대한 인사이트, 분석 위주로 진행하면 좋을 것.
(2차회의) 12.19. 우협 - 리뷰에 결측치가 특히 많았음 : 특수문자들이나 이상한 데이터가 많았음, 결측과 이상관련만 처리 중 현준 - 가격 전처리, 화장실 결측치 처리, 파생컬럼(편의시설 amenities) - wifi, tv, ott, gym, aircon, ame_cnt, 수용인원이 2명일 때가 제일 많음, 가격 이상치 박스플롯(2만달러짜리 방) 호걸 - 중복되는 위치관련 컬럼 통일, 데이터셋 확인 및 엔지니어링, price 형태 통일, price의 형태 확인을 위해 노멀라이징해서 시각화 허건 - price 형태 통일, 컬럼 소거 중 지원 - 어떤컬럼을 빼야할지 선택 중 시형 - 컬럼 별 description 엑셀파일 정리, 위치 관련 데이터셋 슬라이싱, 월별 실제 사이트에 올라가있는 호스트의 숙소 접근중
focus on : 결측치가 많다는 것, 컬럼 선택을 해야한다는 것
(3차 회의) 12.22
우협 - 신입 사업자 기준으로 가격이 형성되는 기준이 무엇일까? : 숙소정보 배제, 맨해튼의 price가 높게 나옴, 아노바테이블 - 상관관계 확인, 0이 나왔는데 현실적으로는 그럴 수 없다고 판단. ETA squared(n^2) - 얼마나 중요한지? 0.1 이상이어야 상관있다고 판단 >> 0.02 아주 약한 연관이 있다
>>통계적으로 위치는 상관없다. 위치는 사용하지 않아도 될 것 같음
현준 - 가격과 다른 컬럼들이 상관관계를 가지고 있는가?
신규 사업자들은 가격이 높은 방을 등록하지않을 것이다. () 전처리(가격, 슈퍼호스트 0으로 채움, 호스트 리스폰타임 결측치 none, host rate % 제거, 나머지 결측치 0으로 채움) wife,ott tv 헬스장 에어컨 >>리뷰는 상관이 없었음
호걸 - property 상위 8개 나머지etc, amenities 개수, beds 결측치 - mean, 다중공산성 - 의미가 없었음 - review_score_rating만 사용 >>대체로 의미가 없었음
지원 - host가 숙소를 등록할 때 어떤 가격으로 등록하면 좋을까? 발제자료에서 정제된 데이터 위주로 사용 > >지역, rooptype, review 결측치 (중앙값), 없는 데이터는 0으로 price-전처리
허건 - 전체적으로 데이터를 어떻게 핸들링해야할지 신규 host의 전략을 어떻게 해야할지 price전처리,
데이터 선택 규칙
1.
리뷰가 없는 숙소
2.
마지막 리뷰 2년
3.
가격이 0인
>13599
>>분석 단계별로 결측치 처리할 예정
전체적으로 모호한 결과가 나왔거나, 대부분의 컬럼들이 price와 긴밀한 상관관계를 보여주고 있지 않았음.
주관적으로 판단하여 분석을 진행한다.
결과
(1차 회의) : 모든 컬럼에 대해 분석을 진행하면 좋을 것 같다는 결론 > 순서를 정해서 데이터 분석을 러프하게 진행한다.
(2차 회의) : 발제 자료에 있는 컬럼 선택, 각자가 해당 컬럼에 대해 분석 진행 > 이상치, 결측치 처리가 제일 좋은 아이디어로 분석 방향 통일 > 해당 분석 방향으로 다시 접근.
(3차 회의) : price와는 전체적으로 모호한 결과. 리뷰가 있는 데이터 = 결제된 데이터라고 판단.
1.
많이 팔린 숙소의 특징 : 리뷰 수, 리뷰 평점 (마지막 리뷰의 날짜 확인)
2.
현재 내 방의 가격을 예측(머신러닝), 가격을 올리기 위한 방법?