내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL
-
<TIL> 2024-02-22내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 22. 23:20
오늘 진행한 일 팀 빌딩 팀 프로젝트 내용 블로그 작성 스파르타 Tableu 강의 수강 오늘 오전은 팀빌딩 시간으로 진행되었다. 새로운 프로젝트의 조원 배정 때문에 상당히 긴장해있었는데 조원들이랑 이야기를 나눠보면서 이번 프로젝트도 괜찮게 진행 될 것 같다는 안도감이 들었다. 오늘은 어제 작성하던 지난 팀 프로젝트와 관련한 내용을 마저 정리하였다. https://jinhyunbae.tistory.com/161 와인 가격 예측 - 2 [와인 가격 예측 -1]에서 이어짐 링크 : https://jinhyunbae.tistory.com/159 와인 가격 예측 - 1 개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변 jinhyunbae.tistory.c..
-
<TIL> 2024-02-21내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 21. 23:28
오늘 진행한 일 스파르타 tableu 강의 수강 팀 프로젝트 내용 블로그 작성 팀 프로젝트 Develop, 튜터님께 문의 우선 본격적으로 tableud 강의를 수강하기 시작했다. 확실히 파이썬 코드로 치려면 한참 걸릴 만한 작업들을 UI 드래그 앤 드롭으로 해결할 수 있다는 점에서 상당히 매력적인 툴이다. 유료에 심지어 좀 비싸다는 부분만 빼면.. 스파르타에서 강의를 듣는 동안 쓸 수 있게 라이센스를 열어줘서 편안하게 학습할 수 있었다. 오늘은 다양한 기초적인 그래프를 시각화 하는 방법에 대해서 배웠고 대시보드를 간단하게 만드는 방법에 대해서 배웠다. 오늘 만든 그래프는 아래 그림과 같다. 태블로에 대해서는 따로 학습한 내용을 블로그로 정리하려고 한다. 맨날 쓴다 하면서 밀린 것들이 많은데 빠릿빠릿하게 ..
-
<TIL> 2024-02-20내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 20. 22:35
오늘 진행한 일 팀 프로젝트 회고 팀 프로젝트 결과 Develop 고민 스파르타 tableu 강의 수강 어제자로 팀프로젝트 발표가 마무리되었고 발표에 대한 피드백을 받았다. 어제는 일정이 있어 TIL을 작성하지 못했는데 오늘부터 다시 또 열심히 적어보려 한다. 발표한 내용에 대해서는 이번 주 내로 블로그 글을 작성해서 프로젝트 전 과정을 남길 것이다. 모델링 과정을 진행하는데 있어서 문제가 되었던 부분을 머신러닝모델(RandomForest)로 보간하여 성능을 평가하고 이를 SHAP 라이브러리를 이용하여 변수 영향 및 중요도 시각화를 하는 방식으로 프로젝트가 진행되었다. 이전 TIL에서 기술했듯이 여러가지 모델들을 실험해보면서 성능을 비교 평가하였고 나름대로의 결론을 내려 발표를 하였다. 발표를 하고 다른..
-
<WIL> 2024년 2월 3주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
2024년 2월 3주차 회고 이번 주 한 주는 머신러닝을 활용한 조별과제에 대부분의 시간을 투자했다. 데이터에 대해서 하나하나 뜯어보고 도메인에 관한 지식도 많이 찾아가면서 전처리를 진행하였는데 이 부분이 공부하는데 있어서 상당히 도움이 많이 되었다. 물론 전처리를 열심히 한 것에 비해서 성능이 많이 향상되지 않았다는 점이 안타깝기는 했지만 앞으로도 데이터를 다루는 데 있어서도 이런 자세를 가지고 데이터를 최대한 다양한 각도로 보는 시선을 길러야겠다는 생각을 했다. 이번 주 내내 개인적인 사정으로 멘탈이 나가있었기도 했기 때문에 힘든 한 주를 보냈는데 그래도 데이터를 보고 프로젝트를 하는 시간만큼은 데이터에 집중할 수 있었다. 다음 주 월요일 발표까지 화이팅
-
<TIL> 2024-02-16내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
오늘 진행한 일 팀 프로젝트 데이터분석 정리 팀 프로젝트 머신러닝 모델 SHAP라이브러리 시각화 팀 프로젝트 PPT 제작 및 수정 오늘은 전처리한 데이터 부분이나 분석한 모델들에 대해서 정리하면서 PPT를 만들기 위한 준비를 했고 모델을 만들기만 했지 변수 중요도 시각화 등의 모델 분석 결과를 정리하지 않았어서 그 부분에 대한 코드를 작성하고 실행했다. https://github.com/shap/shap GitHub - shap/shap: A game theoretic approach to explain the output of any machine learning model. A game theoretic approach to explain the output of any machine learning..
-
<TIL> 2024-02-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 15. 23:17
오늘 진행한 일 팀 프로젝트 데이터 재 전처리 팀 프로젝트 머신러닝 모델링 다음주 월요일에 있을 발표를 준비하기 위해 오늘부터는 PPT 작성에 들어갔다. 조원들이 PPT 만드는 걸 도우면서 대부분의 시간을 보냈고 그와 동시에 조금 더 다양한 모델을 만들어서 기존에 만든 모델과 성능비교를 해보고 싶어 모델을 여러개 구축하였다. 따로 결측치 데이터를 보간하지 않고 전부 날려버리고 남은 데이터만 가지고 분석하는 모델을 하나 더 구축했고 구세계 와인과 신세계 와인을 따로 나누어 각각 예측 모델을 만들기도 했다. 각각의 모델은 모두 Optuna로 하이퍼 파라미터 튜닝을 해주었다. 결과만 놓고 봤을 땐 이때까지 만들었던 모델 중에서 결측치를 전부 없앤 뒤 구축한 모델이 가장 성능이 좋았으나 그 마저도 좋은 성능을 ..
-
<TIL> 2024-02-14내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 14. 23:18
오늘 진행한 일 팀 프로젝트 머신러닝 모델링 팀 프로젝트 하이퍼 파라미터 튜닝 어제 오늘 상당히 많은 시간을 와인 데이터 전처리에 쏟았고 드디어 결측치를 보간해서 와인 가격을 예측하는 머신러닝 모델을 만들었다. 트리 기반 앙상블 모델을 몇 개 사용을 했는데 Bagging을 활용한 대표적인 모델인 RandomForest와 Boosting을 활용한 대표적인 모델인 XGBoost를 사용했다. 만든 모델의 성능은 사실 처참한 수준이었다. 가용 가능한 많은 데이터들을 전처리하고 결측치를 머신러닝을 통해서 보간도하고 파생변수들을 여러개 생성하는 등 전처리에 노력을 많이 기울였는데도 불구하고 성능이 좋지 않아서 조금 안타까운 마음은 있다. 원래 전처리라는게 성능 보증수표가 아니기 때문에 어쩔 수 없는 부분이고 노력한..
-
<WIL> 2024년 2월 2주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:12
2024년 2월 2주차 회고 이번주는 고향에 내려와서 이삿짐을 푸는데 거의 많은 시간을 할애할 수 밖에 없었다 프로젝트 기간이 시작되어서 데이터 EDA, 시각화 전처리를 했지만 그 시간 사이사이 틈 날 때마다 택배 박스에 있는 내용물들을 정리했다. 개인사도 있어서 멘탈이 조금 흔들리는 한 주였지만 물론 그렇다고 학습을 게을리하지는 않았다. 조원들이랑 같이 전처리를 진행하고 코드를 공유하면서 각자 진행해온 상황들을 공유했는데 다음 주쯤에는 이제 본격적인 머신러닝 결과물들이 나올 수 있을 것 같다. 블로그도 좀 열심히 써야하는데 이래저래 학습하고 하다보니 블로그에 공을 들일 시간이 조금 부족했던 것 같다. 설 연휴 기간동안 이 때 까지 올리지 못했던 블로그나 좀 작성해보는 시간을 가질까한다.