내일배움캠프(데이터 분석 부트캠프 1기)
-
<TIL> 2024-02-06내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 6. 23:42
오늘 진행한 일 심화 팀프로젝트 발제 팀 프로젝트 데이터 선정 팀 프로젝트 데이터 탐색적 분석 오늘은 다다음주 월요일 진행 예정인 심화 팀프로젝트의 발제가 있었다. 프로젝트 데이터의 경우에는 사전에 정해진 7개의 데이터 중에 하나를 선택하는 것이었고 회의를 통해서 와인 가격 예측 데이터로 선정하였다. 데이터는 캐글에 있는 데이터이다. 링크는 아래에 첨부하였다. https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com EDA를 해본 결과 생각보다 결측치도 많고 다중 속성 칼럼도 있어서 전처리를 상당..
-
<TIL> 2024-02-05내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 6. 00:41
오늘 진행한 일 머신러닝 개인과제 해설 강의 수강 머신러닝 개인과제 심화학습 보충 오늘 오전에는 머신러닝 개인과제 해설 강의를 수강했고 데이터 전처리부분부터 상세하게 해설을 들었다. 데이터 분석을 하는데 있어서 생각하지 못했던 부분들은 튜터님이 짚어주셔서 좀 더 이해가 깊어지는 시간이었다. 그리고 오후에는 개인과제에서 챌린지 부분에 해당했던 제공해준 코드 없이 처음부터 끝까지 스스로 했던 머신러닝 코드를 손보았다. 이를 통해 데이터의 전처리에 대해서 더 깊게 고민하고 새로운 전처리 방법을 배우는 시간이 되었다. https://jinhyunbae.tistory.com/148 개인 과제(with XGBoost) 머신러닝 개인과제는 금융 데이터로 텔레마케팅 권유를 하기 위해 대출을 할 것 같은 고객을 사전에 ..
-
<머신러닝> 개인 과제(with XGBoost)내일배움캠프(데이터 분석 부트캠프 1기)/개인과제 2024. 2. 6. 00:36
머신러닝 개인과제는 금융 데이터로 텔레마케팅 권유를 하기 위해 대출을 할 것 같은 고객을 사전에 선별하는 분류 알고리즘을 짜는 것이었다. 필수 문제는 사전에 제공되는 Jupyter notebook에 빈칸 채워넣기 문제였다. 해당 문제는 빠르게 답안을 작성하여 제출하였고 심화학습을 위해서 사전에 제공된 notebook 없이 데이터 불러오는 단계에서부터 EDA, 전처리, 모델학습 및 평가를 수행하는 실습을 진행했다. 사용한 데이터는 UCI 데이터 저장소의 Bank Marketing 데이터였다. https://archive.ics.uci.edu/dataset/222/bank+marketing UCI Machine Learning Repository Input variables: # bank client dat..
-
<TIL> 2024-02-02내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 2. 23:24
오늘 진행한 일 머신러닝 개인과제 심화 학습 어제는 스파르타에서 낸 머신러닝 개인과제에서 기본적인 문제를 풀었고 문제 요구사항 중에 선택사항과 심화 학습과정을 오늘 수행했다. 기본 문제는 사전에 작성된 코드의 빈칸을 채우는 방식으로 머신러닝 문제를 푸는 것이고 심화 학습 과정은 사전에 제공된 코드없이 전처리부터 분석 결과를 보는 전체 과정을 직접 해보는 것이었다. 머신러닝은 그래도 익숙하다고 생각해서 코드를 잘 써내려가긴 했지만 아직도 전처리를 어느정도 진행한 뒤에 하이퍼파라미터 튜닝을 하면서 모델 성능을 올릴 때 내가 맞게 하고 있는 것인가에 대한 확신이 없다. 아마 대학원 기간 동안에 사혼의 구슬조각 맞추듯이 머신러닝을 배워서 그렇게 된 것이 아닐까 싶다. 이번 학습 기회를 빌어서 튜터님을 귀찮게 만..
-
<WIL> 2024년 2월 첫 주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 2. 23:20
2024년 2월 첫주차 회고 벌써 내일배움캠프 학습 기간도 30%나 지났다. 이번 주는 고향으로 내려가는 이사를 준비하랴, 머신러닝 강의 11시간짜리 들으랴 개인과제도 미리 제출해놓느라고 아주 정신이 없었다. 자취방 계약이 부트캠프 도중에 하필 끝날게 뭐람 사실 지금도 이사 준비를 하던 중에 회고를 위해 블로그를 적고 있다. 그래도 이번주도 열심히 살았다라는 뿌듯한 기분을 느낀다. 다음주부터는 고향에서 이사 걱정없이 학습할 수 있으니 곧 있을 심화 프로젝트에 대한 대비도 할 겸해서 학습을 좀 빡세게 하면서 프로젝트 데이터를 찾으려고 한다.
-
<TIL> 2024-01-31내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 31. 21:50
오늘 진행한 일 머신러닝 심화 강의 수강 통계학 복습 및 블로그 작성 개인적인 사정으로 인해 요즘 학습에 집중하기가 좋은 환경은 아니었다. 오는 2월 4일에 원룸 방을 빼게되면서 청주에서 고향집으로 이사를 가야하기 때문에 이사 준비로 시간을 할애해야 했기 때문이다. 9 to 9 학습하는 쉬는 시간 사이사이에 짐을 챙기다 보니 시간을 내기가 조금 어려운 부분이 있었다. 오늘은 머신러닝 심화강의 수강으로 시간을 대부분 보냈다. 목표로는 머신러닝 심화를 오늘 수강을 끝내고 선형회귀에 코드에 관한 블로그도 작성을 해보려고 했는데 막상 강의를 따라가며 코드를 작성하면서 수강을 하다보니 미처 다 수강할 수 없었다. 그래도 비지도학습인 군집분석과 딥러닝 부분만 빼고는 다 수강을 마쳤다. 머신러닝 심화 강의에서 사용한..
-
<TIL> 2024-01-30내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 30. 23:37
오늘 진행한 일 머신러닝 기초 강의 수강 완료 머신러닝 심화 강의 수강 시작 통계학 강의 복습 및 블로그 작성 오늘은 머신러닝 기초 강의를 수강 완료했고 머신러닝 모델에서의 선형회귀와 로지스틱 회귀를 학습했다. 그리고 심화강의에 들어서서 EDA 및 전처리 부분을 학습했다. 머신러닝의 선형회귀와 통계학에서의 전통적 선형회귀는 사실상 같은 것이기 때문에 또 한 번 복습을 하는 느낌이었다. EDA 및 전처리의 경우 지난 주차에서 들었던 데이터 전처리 및 시각화와는 다르게 머신러닝 모델에 데이터를 넣기 위한 데이터의 형태를 보는 시각화, 그리고 머신러닝 모델에 넣기 위한 형태로 가공하는 데이터 전처리였다. 전처리의 경우에는 어떻게 하는지는 잘 알고 있는 부분이었는데, 현업에서 실제로 데이터를 다루는 튜터님의 전..
-
<TIL> 2024-01-29내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 29. 22:03
오늘 진행한 일 데이터 개인과제 해설 강의 수강 머신러닝 기초 강의 수강 오전에는 지난 주에 출제되었던 데이터 전처리 및 시각화에 대한 개인과제 해설 강의가 있었다. 문제 자체 난이도는 전처리와 시각화에 대한 내용이라 간단했으나 그 문제 내용을 응용해서 했던 ANOVA 분석 코드를 보면서 공부가 되는 내용들이 많았다. 사용한 데이터는 Git public repository의 push 횟수로 공개 저장소에 대한 기록은 모두에게 공개되어 Bigquery의 데이터 베이스 형태로도 저장되어 있다고 한다. 그 중에 2019년도 2월 1일부터 2020년 1월 11일까지 약 1년 간의 일자별 push 횟수에 대한 데이터이다. 1번 문제는 log_date의 날짜변환에 관한 문제였다. ## 날짜를 변환 df.log_da..