머신러닝 체크리스트
1. 프로젝트 개요
- 프로젝트 제목 :
- 해결하려는 문제 :
- 평가 지표 :
2. 데이터 구조 탐색
- 데이터 폴더 구축
- 파일 별 용도 설명
- 특성 설명 (이름, 의미, 자료형, 결측값 개수, 고윳값 개수, 데이터 범위 등)
- 훈련, 검증, 테스트 분할
- 타깃값
3. 데이터 시각화
- 시각화를 위한 피처 엔지니어링
- 수치형 데이터 시각화
- 범주형 데이터 시각화
- 피처 간 관계 시각화
- 타겟과의 관계 시각화
4. 모델링
-
평가 방식 설정
- 교차 평가
-
초기 모델
- 베이스라인 모델을 위한 피처 엔지니어링
- 베이스라인 모델 구축
- 베이스라인 모델 성능 평가
-
모델 개선
-
하이퍼파라미터 최적화:
- Grid Search
- Random Search
- Baysian Optimization
-
피처 엔지니어링
- 데이터 인코딩
- 데이터 다운캐스팅
- 이상치 제거
- 결측값 처리
- Feature Scaling
- 파생 피처 생성
- 피처 선택
-
하이퍼파라미터 최적화:
5. 모델 배포
-
경진대회 제출
- 최종 예측
- 제출 파일 생성
- 제출
-
서비스 배포
- 모델 직렬화
- 배포 환경 설정
- 모니터링 시스템
6. 유지 보수
- 초기 가정 검토
- 배포 후 성능
- 사용자 피드백