전체 글
-
<TIL> 2024-02-14내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 14. 23:18
오늘 진행한 일 팀 프로젝트 머신러닝 모델링 팀 프로젝트 하이퍼 파라미터 튜닝 어제 오늘 상당히 많은 시간을 와인 데이터 전처리에 쏟았고 드디어 결측치를 보간해서 와인 가격을 예측하는 머신러닝 모델을 만들었다. 트리 기반 앙상블 모델을 몇 개 사용을 했는데 Bagging을 활용한 대표적인 모델인 RandomForest와 Boosting을 활용한 대표적인 모델인 XGBoost를 사용했다. 만든 모델의 성능은 사실 처참한 수준이었다. 가용 가능한 많은 데이터들을 전처리하고 결측치를 머신러닝을 통해서 보간도하고 파생변수들을 여러개 생성하는 등 전처리에 노력을 많이 기울였는데도 불구하고 성능이 좋지 않아서 조금 안타까운 마음은 있다. 원래 전처리라는게 성능 보증수표가 아니기 때문에 어쩔 수 없는 부분이고 노력한..
-
<WIL> 2024년 2월 2주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:12
2024년 2월 2주차 회고 이번주는 고향에 내려와서 이삿짐을 푸는데 거의 많은 시간을 할애할 수 밖에 없었다 프로젝트 기간이 시작되어서 데이터 EDA, 시각화 전처리를 했지만 그 시간 사이사이 틈 날 때마다 택배 박스에 있는 내용물들을 정리했다. 개인사도 있어서 멘탈이 조금 흔들리는 한 주였지만 물론 그렇다고 학습을 게을리하지는 않았다. 조원들이랑 같이 전처리를 진행하고 코드를 공유하면서 각자 진행해온 상황들을 공유했는데 다음 주쯤에는 이제 본격적인 머신러닝 결과물들이 나올 수 있을 것 같다. 블로그도 좀 열심히 써야하는데 이래저래 학습하고 하다보니 블로그에 공을 들일 시간이 조금 부족했던 것 같다. 설 연휴 기간동안 이 때 까지 올리지 못했던 블로그나 좀 작성해보는 시간을 가질까한다.
-
<TIL> 2024-02-08내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:06
오늘 진행한 일 팀 프로젝트 1차 튜터링 팀 프로젝트 데이터 전처리 오늘은 어제 한 EDA와 전처리를 하다가 생긴 궁금증을 가지고 튜터님께 질문을 드리러갔다. 질문 드린 내용은 아래와 같다. 데이터 보간에 있어서 ml데이터를 최빈값인 750으로 보간하고자 하는데 이렇게 하면 750인 데이터가 전체의 97.4퍼센트가 된다. 이러면 예측력에 영향이 적을 거 같은데 데이터를 사용하지 않는 편이 더 나은가 레이블 갯수가 너무 많은 범주형 데이터의 경우 기준치 이하의 행 수를 가지는 데이터에 대해 “기타”로 묶어도 되는가 변수상관성이 0.79인 데이터에 대해서 변수선택을 해주는게 좋은가 범주형 변수 결측치 보간 시 MICE 방법을 이용하려고 하는데 문제가 없겠는가 아니면 머신러닝 방법이 더 나은가 질문에 대한 답..
-
<TIL> 2024-02-07내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 7. 22:05
오늘 진행한 일 팀 프로젝트 데이터 탐색적 분석 팀 프로젝트 데이터 전처리 및 튜터링 준비 https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com 팀 프로젝트용 와인 데이터를 받았는데 데이터의 전처리에 상당히 공을 들여야할 것 같은 데이터였다. 오늘은 그래서 데이터를 EDA하고 전처리를 하는데 대부분의 시간을 할애하였다. 자세한 EDA와 전처리 내용은 전처리가 정해지고 프로젝트가 어느정도 마무리가 되었을 때 따로 팀프로젝트 카테고리에 글로 남기려고 한다. import pandas as pd im..
-
<TIL> 2024-02-06내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 6. 23:42
오늘 진행한 일 심화 팀프로젝트 발제 팀 프로젝트 데이터 선정 팀 프로젝트 데이터 탐색적 분석 오늘은 다다음주 월요일 진행 예정인 심화 팀프로젝트의 발제가 있었다. 프로젝트 데이터의 경우에는 사전에 정해진 7개의 데이터 중에 하나를 선택하는 것이었고 회의를 통해서 와인 가격 예측 데이터로 선정하였다. 데이터는 캐글에 있는 데이터이다. 링크는 아래에 첨부하였다. https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com EDA를 해본 결과 생각보다 결측치도 많고 다중 속성 칼럼도 있어서 전처리를 상당..
-
<TIL> 2024-02-05내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 6. 00:41
오늘 진행한 일 머신러닝 개인과제 해설 강의 수강 머신러닝 개인과제 심화학습 보충 오늘 오전에는 머신러닝 개인과제 해설 강의를 수강했고 데이터 전처리부분부터 상세하게 해설을 들었다. 데이터 분석을 하는데 있어서 생각하지 못했던 부분들은 튜터님이 짚어주셔서 좀 더 이해가 깊어지는 시간이었다. 그리고 오후에는 개인과제에서 챌린지 부분에 해당했던 제공해준 코드 없이 처음부터 끝까지 스스로 했던 머신러닝 코드를 손보았다. 이를 통해 데이터의 전처리에 대해서 더 깊게 고민하고 새로운 전처리 방법을 배우는 시간이 되었다. https://jinhyunbae.tistory.com/148 개인 과제(with XGBoost) 머신러닝 개인과제는 금융 데이터로 텔레마케팅 권유를 하기 위해 대출을 할 것 같은 고객을 사전에 ..
-
<머신러닝> 개인 과제(with XGBoost)내일배움캠프(데이터 분석 부트캠프 1기)/개인과제 2024. 2. 6. 00:36
머신러닝 개인과제는 금융 데이터로 텔레마케팅 권유를 하기 위해 대출을 할 것 같은 고객을 사전에 선별하는 분류 알고리즘을 짜는 것이었다. 필수 문제는 사전에 제공되는 Jupyter notebook에 빈칸 채워넣기 문제였다. 해당 문제는 빠르게 답안을 작성하여 제출하였고 심화학습을 위해서 사전에 제공된 notebook 없이 데이터 불러오는 단계에서부터 EDA, 전처리, 모델학습 및 평가를 수행하는 실습을 진행했다. 사용한 데이터는 UCI 데이터 저장소의 Bank Marketing 데이터였다. https://archive.ics.uci.edu/dataset/222/bank+marketing UCI Machine Learning Repository Input variables: # bank client dat..
-
<TIL> 2024-02-02내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 2. 23:24
오늘 진행한 일 머신러닝 개인과제 심화 학습 어제는 스파르타에서 낸 머신러닝 개인과제에서 기본적인 문제를 풀었고 문제 요구사항 중에 선택사항과 심화 학습과정을 오늘 수행했다. 기본 문제는 사전에 작성된 코드의 빈칸을 채우는 방식으로 머신러닝 문제를 푸는 것이고 심화 학습 과정은 사전에 제공된 코드없이 전처리부터 분석 결과를 보는 전체 과정을 직접 해보는 것이었다. 머신러닝은 그래도 익숙하다고 생각해서 코드를 잘 써내려가긴 했지만 아직도 전처리를 어느정도 진행한 뒤에 하이퍼파라미터 튜닝을 하면서 모델 성능을 올릴 때 내가 맞게 하고 있는 것인가에 대한 확신이 없다. 아마 대학원 기간 동안에 사혼의 구슬조각 맞추듯이 머신러닝을 배워서 그렇게 된 것이 아닐까 싶다. 이번 학습 기회를 빌어서 튜터님을 귀찮게 만..