내일배움캠프(데이터 분석 부트캠프 1기)
-
<TIL> 2024-02-20내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 20. 22:35
오늘 진행한 일 팀 프로젝트 회고 팀 프로젝트 결과 Develop 고민 스파르타 tableu 강의 수강 어제자로 팀프로젝트 발표가 마무리되었고 발표에 대한 피드백을 받았다. 어제는 일정이 있어 TIL을 작성하지 못했는데 오늘부터 다시 또 열심히 적어보려 한다. 발표한 내용에 대해서는 이번 주 내로 블로그 글을 작성해서 프로젝트 전 과정을 남길 것이다. 모델링 과정을 진행하는데 있어서 문제가 되었던 부분을 머신러닝모델(RandomForest)로 보간하여 성능을 평가하고 이를 SHAP 라이브러리를 이용하여 변수 영향 및 중요도 시각화를 하는 방식으로 프로젝트가 진행되었다. 이전 TIL에서 기술했듯이 여러가지 모델들을 실험해보면서 성능을 비교 평가하였고 나름대로의 결론을 내려 발표를 하였다. 발표를 하고 다른..
-
<WIL> 2024년 2월 3주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
2024년 2월 3주차 회고 이번 주 한 주는 머신러닝을 활용한 조별과제에 대부분의 시간을 투자했다. 데이터에 대해서 하나하나 뜯어보고 도메인에 관한 지식도 많이 찾아가면서 전처리를 진행하였는데 이 부분이 공부하는데 있어서 상당히 도움이 많이 되었다. 물론 전처리를 열심히 한 것에 비해서 성능이 많이 향상되지 않았다는 점이 안타깝기는 했지만 앞으로도 데이터를 다루는 데 있어서도 이런 자세를 가지고 데이터를 최대한 다양한 각도로 보는 시선을 길러야겠다는 생각을 했다. 이번 주 내내 개인적인 사정으로 멘탈이 나가있었기도 했기 때문에 힘든 한 주를 보냈는데 그래도 데이터를 보고 프로젝트를 하는 시간만큼은 데이터에 집중할 수 있었다. 다음 주 월요일 발표까지 화이팅
-
<TIL> 2024-02-16내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
오늘 진행한 일 팀 프로젝트 데이터분석 정리 팀 프로젝트 머신러닝 모델 SHAP라이브러리 시각화 팀 프로젝트 PPT 제작 및 수정 오늘은 전처리한 데이터 부분이나 분석한 모델들에 대해서 정리하면서 PPT를 만들기 위한 준비를 했고 모델을 만들기만 했지 변수 중요도 시각화 등의 모델 분석 결과를 정리하지 않았어서 그 부분에 대한 코드를 작성하고 실행했다. https://github.com/shap/shap GitHub - shap/shap: A game theoretic approach to explain the output of any machine learning model. A game theoretic approach to explain the output of any machine learning..
-
<TIL> 2024-02-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 15. 23:17
오늘 진행한 일 팀 프로젝트 데이터 재 전처리 팀 프로젝트 머신러닝 모델링 다음주 월요일에 있을 발표를 준비하기 위해 오늘부터는 PPT 작성에 들어갔다. 조원들이 PPT 만드는 걸 도우면서 대부분의 시간을 보냈고 그와 동시에 조금 더 다양한 모델을 만들어서 기존에 만든 모델과 성능비교를 해보고 싶어 모델을 여러개 구축하였다. 따로 결측치 데이터를 보간하지 않고 전부 날려버리고 남은 데이터만 가지고 분석하는 모델을 하나 더 구축했고 구세계 와인과 신세계 와인을 따로 나누어 각각 예측 모델을 만들기도 했다. 각각의 모델은 모두 Optuna로 하이퍼 파라미터 튜닝을 해주었다. 결과만 놓고 봤을 땐 이때까지 만들었던 모델 중에서 결측치를 전부 없앤 뒤 구축한 모델이 가장 성능이 좋았으나 그 마저도 좋은 성능을 ..
-
<TIL> 2024-02-14내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 14. 23:18
오늘 진행한 일 팀 프로젝트 머신러닝 모델링 팀 프로젝트 하이퍼 파라미터 튜닝 어제 오늘 상당히 많은 시간을 와인 데이터 전처리에 쏟았고 드디어 결측치를 보간해서 와인 가격을 예측하는 머신러닝 모델을 만들었다. 트리 기반 앙상블 모델을 몇 개 사용을 했는데 Bagging을 활용한 대표적인 모델인 RandomForest와 Boosting을 활용한 대표적인 모델인 XGBoost를 사용했다. 만든 모델의 성능은 사실 처참한 수준이었다. 가용 가능한 많은 데이터들을 전처리하고 결측치를 머신러닝을 통해서 보간도하고 파생변수들을 여러개 생성하는 등 전처리에 노력을 많이 기울였는데도 불구하고 성능이 좋지 않아서 조금 안타까운 마음은 있다. 원래 전처리라는게 성능 보증수표가 아니기 때문에 어쩔 수 없는 부분이고 노력한..
-
<WIL> 2024년 2월 2주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:12
2024년 2월 2주차 회고 이번주는 고향에 내려와서 이삿짐을 푸는데 거의 많은 시간을 할애할 수 밖에 없었다 프로젝트 기간이 시작되어서 데이터 EDA, 시각화 전처리를 했지만 그 시간 사이사이 틈 날 때마다 택배 박스에 있는 내용물들을 정리했다. 개인사도 있어서 멘탈이 조금 흔들리는 한 주였지만 물론 그렇다고 학습을 게을리하지는 않았다. 조원들이랑 같이 전처리를 진행하고 코드를 공유하면서 각자 진행해온 상황들을 공유했는데 다음 주쯤에는 이제 본격적인 머신러닝 결과물들이 나올 수 있을 것 같다. 블로그도 좀 열심히 써야하는데 이래저래 학습하고 하다보니 블로그에 공을 들일 시간이 조금 부족했던 것 같다. 설 연휴 기간동안 이 때 까지 올리지 못했던 블로그나 좀 작성해보는 시간을 가질까한다.
-
<TIL> 2024-02-08내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:06
오늘 진행한 일 팀 프로젝트 1차 튜터링 팀 프로젝트 데이터 전처리 오늘은 어제 한 EDA와 전처리를 하다가 생긴 궁금증을 가지고 튜터님께 질문을 드리러갔다. 질문 드린 내용은 아래와 같다. 데이터 보간에 있어서 ml데이터를 최빈값인 750으로 보간하고자 하는데 이렇게 하면 750인 데이터가 전체의 97.4퍼센트가 된다. 이러면 예측력에 영향이 적을 거 같은데 데이터를 사용하지 않는 편이 더 나은가 레이블 갯수가 너무 많은 범주형 데이터의 경우 기준치 이하의 행 수를 가지는 데이터에 대해 “기타”로 묶어도 되는가 변수상관성이 0.79인 데이터에 대해서 변수선택을 해주는게 좋은가 범주형 변수 결측치 보간 시 MICE 방법을 이용하려고 하는데 문제가 없겠는가 아니면 머신러닝 방법이 더 나은가 질문에 대한 답..
-
<TIL> 2024-02-07내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 7. 22:05
오늘 진행한 일 팀 프로젝트 데이터 탐색적 분석 팀 프로젝트 데이터 전처리 및 튜터링 준비 https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com 팀 프로젝트용 와인 데이터를 받았는데 데이터의 전처리에 상당히 공을 들여야할 것 같은 데이터였다. 오늘은 그래서 데이터를 EDA하고 전처리를 하는데 대부분의 시간을 할애하였다. 자세한 EDA와 전처리 내용은 전처리가 정해지고 프로젝트가 어느정도 마무리가 되었을 때 따로 팀프로젝트 카테고리에 글로 남기려고 한다. import pandas as pd im..