분류 전체보기
-
<TIL> 2024-02-22내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 22. 23:20
오늘 진행한 일 팀 빌딩 팀 프로젝트 내용 블로그 작성 스파르타 Tableu 강의 수강 오늘 오전은 팀빌딩 시간으로 진행되었다. 새로운 프로젝트의 조원 배정 때문에 상당히 긴장해있었는데 조원들이랑 이야기를 나눠보면서 이번 프로젝트도 괜찮게 진행 될 것 같다는 안도감이 들었다. 오늘은 어제 작성하던 지난 팀 프로젝트와 관련한 내용을 마저 정리하였다. https://jinhyunbae.tistory.com/161 와인 가격 예측 - 2 [와인 가격 예측 -1]에서 이어짐 링크 : https://jinhyunbae.tistory.com/159 와인 가격 예측 - 1 개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변 jinhyunbae.tistory.c..
-
<심화 프로젝트> 와인 가격 예측 - 2내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 2. 22. 15:27
[와인 가격 예측 -1]에서 이어짐 링크 : https://jinhyunbae.tistory.com/159 와인 가격 예측 - 1 개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변수를 생성했다. 그리고 전처리된 데이터로 모델링 과정을 진행하였다. 첫 번째로 모 jinhyunbae.tistory.com 모델링 앙상블(Ensemble) 모델 앙상블 모델이란 여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 머신러닝 방법이다. 대표적인 방법으로는 배깅과 부스팅이 있다. 본 프로젝트에서는 배깅을 활용한 대표적인 알고리즘인 RandomForest의 Regression모델과 XGBoost의 Regression 모델을 사용하였다. RandomFores..
-
<TIL> 2024-02-21내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 21. 23:28
오늘 진행한 일 스파르타 tableu 강의 수강 팀 프로젝트 내용 블로그 작성 팀 프로젝트 Develop, 튜터님께 문의 우선 본격적으로 tableud 강의를 수강하기 시작했다. 확실히 파이썬 코드로 치려면 한참 걸릴 만한 작업들을 UI 드래그 앤 드롭으로 해결할 수 있다는 점에서 상당히 매력적인 툴이다. 유료에 심지어 좀 비싸다는 부분만 빼면.. 스파르타에서 강의를 듣는 동안 쓸 수 있게 라이센스를 열어줘서 편안하게 학습할 수 있었다. 오늘은 다양한 기초적인 그래프를 시각화 하는 방법에 대해서 배웠고 대시보드를 간단하게 만드는 방법에 대해서 배웠다. 오늘 만든 그래프는 아래 그림과 같다. 태블로에 대해서는 따로 학습한 내용을 블로그로 정리하려고 한다. 맨날 쓴다 하면서 밀린 것들이 많은데 빠릿빠릿하게 ..
-
<심화 프로젝트> 와인 가격 예측 - 1내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 2. 21. 19:29
개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변수를 생성했다. 그리고 전처리된 데이터로 모델링 과정을 진행하였다. 첫 번째로 모델은 결측치를 삭제한 상태에서 모델을 학습하고 성능을 평가했으며 두 번째 모델은 머신러닝을 통해 결측치를 보간한 뒤 학습하여 성능을 평가했다. 세 번째는 두 번째 모델의 결측치 보간 데이터를 사용했으며 모델을 파생변수를 기준으로 둘로 나누어 각각 모델링하였다. 데이터 사용한 데이터는 Kaggle의 Wine Information이라는 데이터였다. 데이터는 한국의 웹사이트에서 얻어진 21605개의 와인 데이터이다. 출처 링크 : https://www.kaggle.com/datasets/dev7halo/wine-informa..
-
<TIL> 2024-02-20내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 20. 22:35
오늘 진행한 일 팀 프로젝트 회고 팀 프로젝트 결과 Develop 고민 스파르타 tableu 강의 수강 어제자로 팀프로젝트 발표가 마무리되었고 발표에 대한 피드백을 받았다. 어제는 일정이 있어 TIL을 작성하지 못했는데 오늘부터 다시 또 열심히 적어보려 한다. 발표한 내용에 대해서는 이번 주 내로 블로그 글을 작성해서 프로젝트 전 과정을 남길 것이다. 모델링 과정을 진행하는데 있어서 문제가 되었던 부분을 머신러닝모델(RandomForest)로 보간하여 성능을 평가하고 이를 SHAP 라이브러리를 이용하여 변수 영향 및 중요도 시각화를 하는 방식으로 프로젝트가 진행되었다. 이전 TIL에서 기술했듯이 여러가지 모델들을 실험해보면서 성능을 비교 평가하였고 나름대로의 결론을 내려 발표를 하였다. 발표를 하고 다른..
-
<WIL> 2024년 2월 3주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
2024년 2월 3주차 회고 이번 주 한 주는 머신러닝을 활용한 조별과제에 대부분의 시간을 투자했다. 데이터에 대해서 하나하나 뜯어보고 도메인에 관한 지식도 많이 찾아가면서 전처리를 진행하였는데 이 부분이 공부하는데 있어서 상당히 도움이 많이 되었다. 물론 전처리를 열심히 한 것에 비해서 성능이 많이 향상되지 않았다는 점이 안타깝기는 했지만 앞으로도 데이터를 다루는 데 있어서도 이런 자세를 가지고 데이터를 최대한 다양한 각도로 보는 시선을 길러야겠다는 생각을 했다. 이번 주 내내 개인적인 사정으로 멘탈이 나가있었기도 했기 때문에 힘든 한 주를 보냈는데 그래도 데이터를 보고 프로젝트를 하는 시간만큼은 데이터에 집중할 수 있었다. 다음 주 월요일 발표까지 화이팅
-
<TIL> 2024-02-16내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 16. 22:44
오늘 진행한 일 팀 프로젝트 데이터분석 정리 팀 프로젝트 머신러닝 모델 SHAP라이브러리 시각화 팀 프로젝트 PPT 제작 및 수정 오늘은 전처리한 데이터 부분이나 분석한 모델들에 대해서 정리하면서 PPT를 만들기 위한 준비를 했고 모델을 만들기만 했지 변수 중요도 시각화 등의 모델 분석 결과를 정리하지 않았어서 그 부분에 대한 코드를 작성하고 실행했다. https://github.com/shap/shap GitHub - shap/shap: A game theoretic approach to explain the output of any machine learning model. A game theoretic approach to explain the output of any machine learning..
-
<TIL> 2024-02-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 15. 23:17
오늘 진행한 일 팀 프로젝트 데이터 재 전처리 팀 프로젝트 머신러닝 모델링 다음주 월요일에 있을 발표를 준비하기 위해 오늘부터는 PPT 작성에 들어갔다. 조원들이 PPT 만드는 걸 도우면서 대부분의 시간을 보냈고 그와 동시에 조금 더 다양한 모델을 만들어서 기존에 만든 모델과 성능비교를 해보고 싶어 모델을 여러개 구축하였다. 따로 결측치 데이터를 보간하지 않고 전부 날려버리고 남은 데이터만 가지고 분석하는 모델을 하나 더 구축했고 구세계 와인과 신세계 와인을 따로 나누어 각각 예측 모델을 만들기도 했다. 각각의 모델은 모두 Optuna로 하이퍼 파라미터 튜닝을 해주었다. 결과만 놓고 봤을 땐 이때까지 만들었던 모델 중에서 결측치를 전부 없앤 뒤 구축한 모델이 가장 성능이 좋았으나 그 마저도 좋은 성능을 ..