머신러닝 데이터셋 분리 및 스케일링 - 개념 및 연습문제
·
자격증/AICE
데이터셋을 분리하는 이유?일반화 성능 확인: 모델이 학습 데이터에만 잘 맞는지(과적합) 아니면 새로운 데이터에도 잘 동작하는지 확인하려면, 학습에 쓰지 않은 데이터(검증 또는 테스트)가 필요하다.과적합 판단: 학습 성능이 좋고 검증 성능이 나쁘면 과적합 의심.하이퍼파라미터 튜닝: 모델 구조나 하이퍼파라미터(예: 정규화 계수, 트리 깊이)를 조정할 때 검증 데이터 성능을 보고 결정한다.데이터 누수(data leakage) 방지: 검증(또는 테스트) 데이터는 모델이 절대 보지 않게 유지해야 실제 성능을 정확히 평가할 수 있다.보통 흐름: train (학습) → validation (튜닝/조정) → 최종평가는 별도의 test 데이터로. 사전 학습 - 머신러닝 기초 개념Feature : 특징, 입력..