📒

[1주차] 튜터님 피드백 정리 노트

미팅 일자

2025/08/22

서기

튜터

질문 TIP!

[4단계 질문 프레임워크]

현재 상황 / 하고자 하는 목표

현재 어떤 작업을 하고 있고, 무엇을 하고 싶은 지를 간단하게 설명해주세요.

시도한 방법 / 현재 진행 상태

어떤 방법들을 시도해보았는지 요약해주세요 (참고자료를 같이 가지고 오셔도 좋습니다.)

어려운 점 / 막힌 지점

무엇이 잘 안되는지, 어떤 부분에서 막혔는지를 명확하게 설명해주세요.

문제관련 참고 자료 / 관련 코드

관련 코드, 에러메시지, 문제 해결을 위해 참고한 자료 등을 공유해주세요.

SAV 파일을 좀 더 편하게 읽을 수 있는 라이브러리나 다른 리딩 방법이 있는지 궁금합니다!

컬럼이 너무 많은데, 의미 있는 컬럼만 가져다 써도 될까요?

컬럼 안의 데이터가 많을 때 전부 다 써야 하나요? (5만 개)

•

3-1 : 만 명 중 5천 명만 분석해도 되는지 

다중 응답형 데이터를 어떻게 처리해야 해야 할까요

팀 단위의 질의응답 시 팀의 서기가 직접 작성해주세요

•

1번 답변 : SPSS(SAV) 파일은 SPSS 프로그램에서 열고 → CSV 저장하면 가장 쉬움. 파일 변환이 어려우면 멘토에게 요청하면 도와준다고 안내함.

•

2번 답변 : 분석 목적에 맞는 의미 있는 컬럼만 사용하는 것이 적절함. 불필요한 컬럼이 많을 경우 분석에 방해가 될 수 있음.

•

3번 답변 :  5만 개는 Python에서 처리하기에 충분히 감당 가능한 수준임. 많은 데이터는 오히려 분석에 유리할 수 있으며 처리 속도에도 큰 영향을 주지 않음. 다만 전처리 작업은 반드시 필요함. 

•

3-1번 답변 :  5천 명만 사용하는 것은 가능하나 명확한 기준이 필요하기에 비추천함. 특별한 이유 없이 데이터를 줄이는 것은 바람직하지 않으며 가능하면 전체 데이터를 활용하는 것이 좋음.

•

4번 답변 : 분석 목적에 따라 다르게 처리할 수 있음.  전체 응답 비율이 필요할 경우 모든 항목을 활용해야 하며 주요 응답만 필요한 경우 일부 항목만 선택할 수 있음. 파생 변수를 생성하거나 필요 없는 경우 제외하는 것도 가능함. 

SPSS에서 .sav 파일을 열어 CSV 파일로 저장해보기

의미 있는 컬럼 위주로 데이터셋 살펴보기

데이터 전처리 수행하기 (결측치 제거, 이상치 처리 등)

다중 응답 데이터를 분석 목적에 따라 선택, 병합 또는 파생 변수 생성