데이터의 특징
•
도메인 (자동차, 환경)에 대한 이해가 필요하다.
•
시계열 데이터(연도별)
•
데이터 양이 많다.
•
연도별 환경 정책에 대해 살펴봐야 한다.
•
시계열 데이터이므로, 같은 모델이라고 해도 연도마다 연비/배출량이 다르다 (기술의 발전)
•
EDA를 먼저 수행하고 가설 세우는 것이 적합한 데이터
접근 방법
1.
그래프 많이 그려보기
•
시계열 + 종류별 꺾은선 그래프를 그려야 한다.
•
가지고 있는 연료에 따라서도 분류해 꺾은선 그래프를 그려본다.
⇒ 연료별 차량 수, 연료별 배출량 등
•
히트맵(상관계수) 그려보기
2.
기준 명확히 하기
•
이상치에 대한 기준을 명확히 하기
실제 데이터이기 때문에, 그래프 상에 이상치로 보이는 값도 사실은 정상일 수 있다.
•
차량 종류를 카테고리화하는 것은 좋으나 ⇒ 정확한 기준이 있어야 함
•
카테고리 분류 힌트 ⇒ 차종, 제조사
3.
통념 깨기
•
디젤의 환경오염 규제가 많으나 ⇒ 기술발달로 가솔린보다 배출량이 낮을 수도 있다
•
환경과 관련된 문제이므로 ⇒ 기존에 우리가 알고 있던 자동차와 환경 관련 사실(ex. 디젤이 환경오염에 더 많이 기여한다. 천연가스는 깨끗한 연료이다. 등등)이 다른 것이 있는지 확인하기
•
통념을 깨야 함 ⇒ 남들과 다른 인사이트 (정책 비판, 사회 비판 등)
4.
튜터의 도움 받기
허진성 튜터님 ⇒ 데이터 시각화의 전문가
팀원들끼리 다양한 그래프를 최대한 많이 그려보고, 어떻게 시각화를 하면 좋을지 튜터님과 이야기하기
