BigData/빅데이터분석실기_제2유형

빅데이터 분석 실기 제 2유형 정리

3zzang 2022. 6. 22. 15:37

머릿속에서 정리하고 싶어서 쓰는 빅데이터 분석 실기 제 2유형 정리글

 

우선 y 종속변수가 범주형인지(분류), 수치형인지(예측)으로 크게 나뉜다.

 

분류와 예측의 차이는 모델 설정 뿐이고 모델의 종류는 다음과 같다.

* 분류 

 

 

* 예측

 

 

모델 종류는 머릿속에 염두해 놓고 과정은 다음과 같이 분류예측  상관없이 진행한다.

1. 데이터 불러오기

 

2. 데이터에 null값이 존재하는지, 존재하면 적절히 변환해주거나 값이 적으면 삭제한다. (삭제는 되도록 지양)

 

3. 데이터 컬럼들중 'object' type과 수치형 type들 구분해서 전처리

  object columns : LabelEncoding, OneHotEncoding 인코딩 후

 수치형 값들과 함께 Scaling 하기

 

4. 모델 설정 후 학습

 

5. 검증

 

6. 최적의 하이퍼파라미터 찾은 후 다시 적용  ( 4~6과정이 귀찮으면 처음부터 모델설정을 GridsearchCV , RandomsearchCV와 함께 적용해도 된다.)

 

7. 다시 검증 확인

+ 두개의 모델을 구한 후  

8.X_test 파일을 넣어 예측한 후 그 예측값을 pred 변수에 담은 후 제출용 DataFrame 만든 후 제출

 

9. 제출용 csv 다시 read_csv한 후 확인