ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • <TIL> 2024-02-14
    내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 14. 23:18
    • 오늘 진행한 일 
      • 팀 프로젝트 머신러닝 모델링
      • 팀 프로젝트 하이퍼 파라미터 튜닝

    어제 오늘 상당히 많은 시간을  와인 데이터 전처리에 쏟았고

     

    드디어 결측치를 보간해서 와인 가격을 예측하는 머신러닝 모델을 만들었다. 

    트리 기반 앙상블 모델을 몇 개 사용을 했는데

    Bagging을 활용한 대표적인 모델인 RandomForest

    Boosting을 활용한 대표적인 모델인 XGBoost를 사용했다.

     

    만든 모델의 성능은 사실 처참한 수준이었다. 

    가용 가능한 많은 데이터들을 전처리하고 결측치를 머신러닝을 통해서 보간도하고

    파생변수들을 여러개 생성하는 등 전처리에 노력을 많이 기울였는데도 불구하고

    성능이 좋지 않아서 조금 안타까운 마음은 있다. 

     

    원래 전처리라는게 성능 보증수표가 아니기 때문에

    어쩔 수 없는 부분이고 노력한 것에는 의미가 있다는 생각으로 스스로를 위로했다. 

     

    어떻게든 성능을 개선해보기 위해서 하이퍼 파라미터 튜닝 자동화 프레임워크인 Optuna를 사용해

    파라미터를 튜닝했다. 

     

    상당히 오차가 개선이 되었지만 그럼에도 성능이 여전히 좋진 않았다.  

     

     

     

    개인 사정으로 인해 좀 나태한 이틀을 보내긴했지만 남은 프로젝트 기간동안에는 성능 향상과 비교에 좀 매진해서

    여러가지 시도들을 해보려고한다. 

     

    우선 결측치를 아예 없애고 존재하는 데이터들로만 잘 가공해서 모델을 한 번 만들어 볼 계획이고

    그리고 파생변수 중에 구세계 와인, 신세계 와인이라는 카테고리 변수가 있는데 이를 기준으로 데이터를

    아예 나누어 별도의 두 개의 모델을 생성해보고자 한다. 이를 통해 지금보단 조금 더 성능이 개선된다면 좋을 것 같다. 

     

     

    '내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글

    <TIL> 2024-02-16  (0) 2024.02.16
    <TIL> 2024-02-15  (0) 2024.02.15
    <WIL> 2024년 2월 2주차 회고  (0) 2024.02.08
    <TIL> 2024-02-08  (0) 2024.02.08
    <TIL> 2024-02-07  (1) 2024.02.07
Designed by Tistory.