/////
Search

[251223] 회의록

태그
정기회의
날짜
2025/12/23
참석자
해야할 일

1. 회의 정보

회의 목적:
데이터 전처리(공정 단위 재구성/표준화) 방향 정렬
다중공선성으로 인한 분석/모델링 이슈 해결 방향 논의
이상치(노이즈) 처리 기준과 신뢰도 확보 방식 합의
공정 데이터 차이에 따른 모델 성능 개선 아이디어 정리
현재 진행 상황
EDA는 계속 진행 중
위험도(리스크) 점수 산출 로직에서 병목 → 추가 공부/정리 필요
일정 공유는 노션으로, 기록은 필요할 때만 남기는 방식
회의 시간: 11:00 ~ 12:10

2. 회의 내용

A. 다중공선성(가장 큰 기술적 병목)

변수들을 개별로 보면 다중공선성 때문에 통계/모델링이 불안정하거나 해석이 막힐 가능성이 큼
해결 방향: “변수 단위”가 아니라 공정 단위로 재구성해서 접근
정리(의미):
공정 단위로 구조를 바꾸면, (1) 변수 간 상관 구조를 공정 맥락에서 다루고 (2) 이후 표준화/집계를 일관되게 적용하기 쉬워짐.

B. 변수 축소(집계/요약 전략)

아이디어: 공정별로 Z-score 적용 후, 유사 변수군(예: 속도 계열)을 묶어 평균/대표값(요약 통계) 으로 축소
목표: 차원 축소로
다중공선성 완화
모델 불안정성 감소
설명 가능성(“이 그룹이 문제다”) 개선
운영 옵션(2가지 관점)
1.
메커니즘 기반 그룹(경원 정리본) 유지 + 그룹 대표값만 생성(우선순위 높음)
2.
필요 시 추가로 “통계 기반 축약(예: 상관이 매우 높은 것끼리 평균)”을 보조로 사용

C. 이상치 처리(신뢰도/책임 소재까지 연결되는 이슈)

논의 대상 주요 후보: 사이클 타임 / 스킨 두께(Skin Thickness) / BSK CMS
핵심 고민: “무조건 자른다”가 아니라
이상한 값이 들어가 모델이 망가질 수 있다는 불안
반대로 단독 변수로는 이상해도 공정 관점에서는 정상일 수 있음
합의된 톤:
전면 제거 X
보수적 제거(성능을 크게 흔드는 노이즈부터) 가 현실적
어떤 결정을 하든 근거 기반(지표 변화/재현성/로그) 으로 남겨 설명 가능하게
관점 정리(충돌 지점 명확화)
A관점: 학습 데이터 정제 필요(노이즈 최소화)
B관점: 공정상 문제 데이터인지 확신 필요(정상 범주 오판 위험)

D. 데이터 품질/측정 이슈(우선 제거 대상)

“측정상의 문제로 보이는 것만 우선 제거” 의견
예시: 10mm 미만 데이터 44개 존재 → 측정/품질 이슈 가능성
결론: 이상치 논쟁과 별개로, 측정 오류 가능성이 큰 영역부터 우선 분리/태깅하는 접근이 효율적

E. 공정 데이터 차이와 성능 개선 포인트

공정 간 차이가 “극명”하진 않지만, 예로 Casting_Pressure 평균 차이가 큼
공정별 분포 차이가 있으므로 단순 통합보다:
공정별 표준화 후 결합이 더 일관된 비교/학습에 유리
단, 이상치 기준에 따라 해석/성능이 달라질 수 있어 기준 확정이 핵심

F. Z-score 기반 정상/불량 비교 로직(불량을 도드라지게)

권장 흐름:
1.
정상품(정상) 기준으로 μ, σ 산출
2.
그 μ, σ를 불량에도 동일 적용
3.
정상 대비 불량의 이상치/패턴을 비교
“정상/불량을 각각 표준화해서 비교”보다, 정상 기준을 고정해야 불량의 이탈이 또렷해질 가능성이 큼

G. 통계 검정 공유/지원 이슈

결함을 1/2/3으로 묶어 검정을 수행했으나 해석 방식 확인 필요 (경원님 PPT 참고)
이상치 고려 없이 수행한 결과를 공유
최근 잽화면 공유 렉 이슈

3. 결정사항

1.
공정 단위로 재구성해서 진행
2.
공정별 표준화(Z-score 등) 후 변수 결합 산출물을 공유
3.
변수 그룹핑은 공정 메커니즘 기반(경원 정리본) 유지
4.
이상치 처리는 전면 제거가 아닌 보수적 제거(성능 악영향 큰 노이즈 중심) 를 우선 원칙으로 채택
5.
Z-score 기준은 정상품 기준(μ, σ)을 잡고 불량에 동일 적용하는 방향이 유력

4. 역할 분담(업무 단위 기준)

EDA / 위험도 점수 산출 로직 정리: 진행 중 담당자
다중공선성 대응(공정 재구성 + 변수 축소안): 전원 공통
이상치 후보 리스트업 및 영향도 체크(사이클 타임/스킨 두께/BSK CMS): 전원
통계 검정 결과 해석 정리 및 공유: 경원님이 주신 PPT 파일 참고
공정 메커니즘 기반 변수 그룹핑 유지/검증: (따로 확인할 예정)
코드 베이스 취합(메인 브랜치): 시우님 코드 기반 취합 방식 결정

5. 일정 및 후속 작업

노션 운영: 일정/진행상황 공유, 기록은 “필요 시 간단히”
기준/결정 항목(이상치, 라벨 기준 등): 근거와 함께 합의 후 반영
화면 공유 이슈 대응: 회의 전 PPT/요약본 공유로 효율 확보
취합 목표: 20:00까지 각자 진행 후 취합

취합 방식

시우님 코드 메인을 기준

6. 회의 운영 및 협업 방식

노션에 일정/진행상황 공유(기록할 내용이 있으면 간단히 남김)
기준/결정이 필요한 항목(이상치, 라벨 기준 등)은 근거와 함께 합의 후 반영
화면 공유/렉 이슈가 있으면 사전에 PPT/요약본으로 공유해 회의 효율 확보
실험은 “전처리/이상치 기준 변경 → 성능 변화”를 로그로 남겨 재현 가능하게 관리

결론

현재 병목은 다중공선성 + 공정별 데이터 구조 + 이상치(노이즈) 기준 불명확에 있음
실행 우선순위는
1.
공정 단위 재구성 → 2) 공정별 표준화 후 결합 → 3) 정상 기준 Z-score 적용 → 4) 이상치 제거 전/후 성능 비교로 기준 확정
20:00 취합을 목표로, 코드/결과물을 한 기준으로 모을 수 있게 “메인 코드 베이스”를 정하는 것이 핵심