BigData (2) 썸네일형 리스트형 fit(), transform(), fit_transform() 차이 train 할것을 fit 한후 train,test에 transform하는 것이 맞다. fit_transform은 fit+transform을 한번에 처리해주는 건데 내가 여태까지 잘못 학습하고있었다 + 수치형 변수들 sclaer먼저 한 뒤 인코딩해주자 그다음 모델 학습! ++추가) train 데이터에는 없었는데 test 데이터에 처음보는 라벨명이 있으면 에러가 난다. 참고한 코드 및 링크 : https://stackoverflow.com/questions/66365190/y-contains-previously-unseen-labels-male-in-label-encoder y contains previously unseen labels: 'Male' in Label encoder I am trying to.. 빅데이터 분석 실기 제 2유형 정리 머릿속에서 정리하고 싶어서 쓰는 빅데이터 분석 실기 제 2유형 정리글 우선 y 종속변수가 범주형인지(분류), 수치형인지(예측)으로 크게 나뉜다. 분류와 예측의 차이는 모델 설정 뿐이고 모델의 종류는 다음과 같다. * 분류 * 예측 모델 종류는 머릿속에 염두해 놓고 과정은 다음과 같이 분류예측 상관없이 진행한다. 1. 데이터 불러오기 2. 데이터에 null값이 존재하는지, 존재하면 적절히 변환해주거나 값이 적으면 삭제한다. (삭제는 되도록 지양) 3. 데이터 컬럼들중 'object' type과 수치형 type들 구분해서 전처리 object columns : LabelEncoding, OneHotEncoding 인코딩 후 수치형 값들과 함께 Scaling 하기 4. 모델 설정 후 학습 5. 검증 6. 최적의.. 이전 1 다음