////////
Search
Duplicate

질문 답변

Tags
Archive
ETA
2025/07/21
Main Task
Sub Task
담당자
메모
상태
Done
생성 일시
2025/07/21 05:03
우선 순위
진행률 %
Task : 사전 Q&A 3가지 (발표회 사용 O)
1.
머신러닝 모델 설명에서 정확도가 98% 가까이 육박하는데 과적합인지 아닌지 확인해보셨을까요?
만약 과적합 위험이 있었다면 어떤 방식으로 보완하셨는지 듣고 싶습니다.
[다니엘님 답변]
저희가 설정한 인기도 점수가 단순한 룰이 아니라, 머신러닝 기준에서도 잘 맞는 기준인지 확인해보고자 검증용으로 모델을 학습시켜 봤습니다.
그 결과, 인기도 점수의 주요 구성 요소인 리뷰, 수익, 방문자 수를 feature로 사용했을 때 약 98%의 정확도가 나와, 이 기준이 내부적으로 일관성 있게 잘 작동함을 확인했습니다.
단, 이는 우리가 만든 기준을 되짚어보는 모델이기 때문에 과도하게 일반화된 의미는 아닙니다.
[띠니 답변]
“모델의 성능을 과하게 믿지 않기 위해, 전체 데이터를 학습용과 검증용으로 70:30으로 나누어 평가했습니다. 학습 정확도는 98.5%였고, 검증 정확도는 97.8%로 차이가 1% 이하였기 때문에 일반적으로 과적합 우려가 낮다고 판단했습니다. 게다가 5-fold 교차검증을 수행했을 때도 평균 정확도가 97.6%±0.5%로 안정적으로 수렴해, 특정 학습 데이터에 과도하게 최적화된 것은 아니라고 결론지었습니다
2.
분류 모델 적용 후 feature importance만으로는 해당 피처가 긍정적·부정적 영향을 미치는지 알기 어려운 것으로 알고 있습니다. 이 한계를 어떻게 보완하시고, 각 피처의 방향성까지 확인하셨는지 방법을 공유 부탁드립니다.
텍스트나 평점 리뷰가 따로 없어서 우리가 인기도 기준을 새롭게 설정한 부분에서 이런 질문이 나온 것 같은데 질문하신 분 맞나요?
저희는 악플 / 선플을 알 수 있는 방법이 없어 리뷰 수 자체가 높으면 인기가 많은 것이라고 간주했습니다.
그 이유는 리뷰를 남겼다는 것 자체가 방문을 했다는 의미이고, 만약 부정적인 의견을 남겼다고 한다면 악플도 관심이라는 생각으로 이렇게 방향을 설정했습니다.
전제: 리뷰 수 많으면 관심 & 방문  
인기 숙소일수록 평균 리뷰 수 많음
단순 검증임 피피티 읽으세여
3.
정답 레이블 생성 시 ‘최근 리뷰 날짜’에 40%의 가중치를 부여하신 근거가 궁금합니다.최근 리뷰 작성 여부가 인기 숙소 선정에 40% 수준의 영향력을 가지는 것이 합리적이라고 판단하신 이유를 설명해 주실 수 있을까요?
2018년 이전으로 리뷰가 적힌 경우 최근까지 활동하는 숙소라고 판단하기 어려움
2018년 기준으로 운영하는 숙소들을 최근에 운영하는 숙소라고 판단
최근 리뷰가 리뷰 중에 신뢰를 가장 많이 주기 때문에 3컬럼 중 최근 날짜에 리뷰 수와 똑같이 가중치를 40% 주는 게 맞다고 판단
최근 리뷰가 있냐 없냐를 기준으로 다른 컬럼들의 활용도가 달라지기 때문에 더 중요하다고 생각
review_year
2011 7
2012 25
2013 48
2014 199
2015 1393
2016 2707
2017 3204
2018 6048
2019 25202
(발표회 사용 X)
1.
11페이지 Feature Importance를 구하기 위한 인기/비인기 숙소 머신 러닝 진행 시에 학습 정확도와 테스트 정확도에는 크게 문제가 없었는지 궁금합니다. 만일 두 값 간에 차이가 크셨을 경우 어떤 기준으로 테스트가 합당하다고 판단하여 진행하셨는지 배우고 싶습니다.
2. 도심, 비도심, 외곽 지역으로 비교해주셨는데 구분 기준이 궁금합니다.
3. 도심, 비도심, 외곽 지역으로 비교하게 되면 외곽 지역이 다른 지역의 도심에 가까울 가능성이 있다고 생각했습니다. 그럼 외곽이 아닐 수도 있는데 이 부분은 어떻게 해결하셨나요?
?????????엥???????????? 열받네…?
4. 나오는 머신러닝 설명 또한 정확도가 거의 만점에 육박하는데 이 또한 과적합 위험이 있지 않나요?
= 1번
5. 월별 방문수를 리뷰율 10%라는 조건을 기준으로 정하셨던데, 10%는 어떤 근거로 정하신 건지 궁금합니다.
일반적으로 10~15%를 기준으로 사용한다고 나왔는데, 우리 데이터는 전반적으로 리뷰 수가 많지 않아서, 10%로 잡았다
6. 키워드 분석에서 단순히 인기 숙소 비율에 포함된다고 그 키워드가 유의하다는 결과는 어떻게 입증할 수 있나요?
콱씨
7. 분류 모델을 사용하게 되면 feature importance에서 해당 feature가 양 또는 음으로 작용하는지 알 수 없다는 단점이 있는데, 이 부분은 어떤 방식으로 확인하셨을까요?
= 2번
실행 및 진행 사항 정리
결과