머신러닝
-
<심화 프로젝트> 와인 가격 예측 - 2내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 2. 22. 15:27
[와인 가격 예측 -1]에서 이어짐 링크 : https://jinhyunbae.tistory.com/159 와인 가격 예측 - 1 개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변수를 생성했다. 그리고 전처리된 데이터로 모델링 과정을 진행하였다. 첫 번째로 모 jinhyunbae.tistory.com 모델링 앙상블(Ensemble) 모델 앙상블 모델이란 여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 머신러닝 방법이다. 대표적인 방법으로는 배깅과 부스팅이 있다. 본 프로젝트에서는 배깅을 활용한 대표적인 알고리즘인 RandomForest의 Regression모델과 XGBoost의 Regression 모델을 사용하였다. RandomFores..
-
<TIL> 2024-02-20내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 20. 22:35
오늘 진행한 일 팀 프로젝트 회고 팀 프로젝트 결과 Develop 고민 스파르타 tableu 강의 수강 어제자로 팀프로젝트 발표가 마무리되었고 발표에 대한 피드백을 받았다. 어제는 일정이 있어 TIL을 작성하지 못했는데 오늘부터 다시 또 열심히 적어보려 한다. 발표한 내용에 대해서는 이번 주 내로 블로그 글을 작성해서 프로젝트 전 과정을 남길 것이다. 모델링 과정을 진행하는데 있어서 문제가 되었던 부분을 머신러닝모델(RandomForest)로 보간하여 성능을 평가하고 이를 SHAP 라이브러리를 이용하여 변수 영향 및 중요도 시각화를 하는 방식으로 프로젝트가 진행되었다. 이전 TIL에서 기술했듯이 여러가지 모델들을 실험해보면서 성능을 비교 평가하였고 나름대로의 결론을 내려 발표를 하였다. 발표를 하고 다른..
-
<TIL> 2024-02-16내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
오늘 진행한 일 팀 프로젝트 데이터분석 정리 팀 프로젝트 머신러닝 모델 SHAP라이브러리 시각화 팀 프로젝트 PPT 제작 및 수정 오늘은 전처리한 데이터 부분이나 분석한 모델들에 대해서 정리하면서 PPT를 만들기 위한 준비를 했고 모델을 만들기만 했지 변수 중요도 시각화 등의 모델 분석 결과를 정리하지 않았어서 그 부분에 대한 코드를 작성하고 실행했다. https://github.com/shap/shap GitHub - shap/shap: A game theoretic approach to explain the output of any machine learning model. A game theoretic approach to explain the output of any machine learning..
-
<TIL> 2024-02-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 15. 23:17
오늘 진행한 일 팀 프로젝트 데이터 재 전처리 팀 프로젝트 머신러닝 모델링 다음주 월요일에 있을 발표를 준비하기 위해 오늘부터는 PPT 작성에 들어갔다. 조원들이 PPT 만드는 걸 도우면서 대부분의 시간을 보냈고 그와 동시에 조금 더 다양한 모델을 만들어서 기존에 만든 모델과 성능비교를 해보고 싶어 모델을 여러개 구축하였다. 따로 결측치 데이터를 보간하지 않고 전부 날려버리고 남은 데이터만 가지고 분석하는 모델을 하나 더 구축했고 구세계 와인과 신세계 와인을 따로 나누어 각각 예측 모델을 만들기도 했다. 각각의 모델은 모두 Optuna로 하이퍼 파라미터 튜닝을 해주었다. 결과만 놓고 봤을 땐 이때까지 만들었던 모델 중에서 결측치를 전부 없앤 뒤 구축한 모델이 가장 성능이 좋았으나 그 마저도 좋은 성능을 ..
-
<TIL> 2024-02-14내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 14. 23:18
오늘 진행한 일 팀 프로젝트 머신러닝 모델링 팀 프로젝트 하이퍼 파라미터 튜닝 어제 오늘 상당히 많은 시간을 와인 데이터 전처리에 쏟았고 드디어 결측치를 보간해서 와인 가격을 예측하는 머신러닝 모델을 만들었다. 트리 기반 앙상블 모델을 몇 개 사용을 했는데 Bagging을 활용한 대표적인 모델인 RandomForest와 Boosting을 활용한 대표적인 모델인 XGBoost를 사용했다. 만든 모델의 성능은 사실 처참한 수준이었다. 가용 가능한 많은 데이터들을 전처리하고 결측치를 머신러닝을 통해서 보간도하고 파생변수들을 여러개 생성하는 등 전처리에 노력을 많이 기울였는데도 불구하고 성능이 좋지 않아서 조금 안타까운 마음은 있다. 원래 전처리라는게 성능 보증수표가 아니기 때문에 어쩔 수 없는 부분이고 노력한..
-
<TIL> 2024-02-08내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:06
오늘 진행한 일 팀 프로젝트 1차 튜터링 팀 프로젝트 데이터 전처리 오늘은 어제 한 EDA와 전처리를 하다가 생긴 궁금증을 가지고 튜터님께 질문을 드리러갔다. 질문 드린 내용은 아래와 같다. 데이터 보간에 있어서 ml데이터를 최빈값인 750으로 보간하고자 하는데 이렇게 하면 750인 데이터가 전체의 97.4퍼센트가 된다. 이러면 예측력에 영향이 적을 거 같은데 데이터를 사용하지 않는 편이 더 나은가 레이블 갯수가 너무 많은 범주형 데이터의 경우 기준치 이하의 행 수를 가지는 데이터에 대해 “기타”로 묶어도 되는가 변수상관성이 0.79인 데이터에 대해서 변수선택을 해주는게 좋은가 범주형 변수 결측치 보간 시 MICE 방법을 이용하려고 하는데 문제가 없겠는가 아니면 머신러닝 방법이 더 나은가 질문에 대한 답..
-
<TIL> 2024-02-06내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 6. 23:42
오늘 진행한 일 심화 팀프로젝트 발제 팀 프로젝트 데이터 선정 팀 프로젝트 데이터 탐색적 분석 오늘은 다다음주 월요일 진행 예정인 심화 팀프로젝트의 발제가 있었다. 프로젝트 데이터의 경우에는 사전에 정해진 7개의 데이터 중에 하나를 선택하는 것이었고 회의를 통해서 와인 가격 예측 데이터로 선정하였다. 데이터는 캐글에 있는 데이터이다. 링크는 아래에 첨부하였다. https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com EDA를 해본 결과 생각보다 결측치도 많고 다중 속성 칼럼도 있어서 전처리를 상당..
-
<TIL> 2024-02-05내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 6. 00:41
오늘 진행한 일 머신러닝 개인과제 해설 강의 수강 머신러닝 개인과제 심화학습 보충 오늘 오전에는 머신러닝 개인과제 해설 강의를 수강했고 데이터 전처리부분부터 상세하게 해설을 들었다. 데이터 분석을 하는데 있어서 생각하지 못했던 부분들은 튜터님이 짚어주셔서 좀 더 이해가 깊어지는 시간이었다. 그리고 오후에는 개인과제에서 챌린지 부분에 해당했던 제공해준 코드 없이 처음부터 끝까지 스스로 했던 머신러닝 코드를 손보았다. 이를 통해 데이터의 전처리에 대해서 더 깊게 고민하고 새로운 전처리 방법을 배우는 시간이 되었다. https://jinhyunbae.tistory.com/148 개인 과제(with XGBoost) 머신러닝 개인과제는 금융 데이터로 텔레마케팅 권유를 하기 위해 대출을 할 것 같은 고객을 사전에 ..