시각화
-
<TIL> 2024-04-02내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 4. 2. 23:22
오늘 진행한 일 수준별 학습 (태블로) 과제 SQL 코드테스트 태블로 수준학습 과제는 AARRR 퍼널별 지표를 측정하여 대시보드 작성하는 과제였다. https://www.kaggle.com/competitions/ga-customer-revenue-prediction/data?select=train.csv Google Analytics Customer Revenue Prediction | Kaggle www.kaggle.com 사용한 데이터는 위 링크의 데이터이다. JSON데이터가 섞여있어서 파싱이 필요해서 전처리하여 데이터를 사용하였다. 최종 적으로는 AARRR 지표를 통해서 유저별 구매 트렌드와 각 퍼널별 주요 지표에 미치는 원인을 파악하여 대시보드를 작성하는 것이다. 그래서 우선 AARRR에서 많이..
-
<TIL> 2024-02-23내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 23. 22:23
오늘 진행한 일 SQL 코딩 테스트 문제 풀기 스파르타 Tableu 강의 수강 Tableu 실습(대시보드 설계 및 작성) 우선 프로젝트와 다른 개인학습을 핑계로 미뤄왔던 SQL 코딩테스트에 시동을 걸었다. 조금 난이도 있는 코딩테스트의 문제가 빠릿빠릿하게 생각이 나질 않아서 조금 쉬운 문제에서부터 시작하여 다시 감각을 키우고자 해커링크의 문제를 풀기 시작했다. 초반 문제는 난이도가 그래도 쉬운 편이었기 때문에 10문제를 후딱 풀었고 오후 학습을 시작했다. 앞으로 다시 매일 3문제 이상은 꾸준히 풀어보려고 한다. 오늘은 스파르타 Tableu강의를 다 수강하는 것이 목표였고 이를 완수했다. Tableu의 Superstore 데이터셋을 이용하여 대시보드를 구축해보는 실습을 해보는 파트였고 데이터를 보고 지표를..
-
<심화 프로젝트> 와인 가격 예측 - 1내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 2. 21. 19:29
개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변수를 생성했다. 그리고 전처리된 데이터로 모델링 과정을 진행하였다. 첫 번째로 모델은 결측치를 삭제한 상태에서 모델을 학습하고 성능을 평가했으며 두 번째 모델은 머신러닝을 통해 결측치를 보간한 뒤 학습하여 성능을 평가했다. 세 번째는 두 번째 모델의 결측치 보간 데이터를 사용했으며 모델을 파생변수를 기준으로 둘로 나누어 각각 모델링하였다. 데이터 사용한 데이터는 Kaggle의 Wine Information이라는 데이터였다. 데이터는 한국의 웹사이트에서 얻어진 21605개의 와인 데이터이다. 출처 링크 : https://www.kaggle.com/datasets/dev7halo/wine-informa..
-
<TIL> 2024-02-07내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 7. 22:05
오늘 진행한 일 팀 프로젝트 데이터 탐색적 분석 팀 프로젝트 데이터 전처리 및 튜터링 준비 https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com 팀 프로젝트용 와인 데이터를 받았는데 데이터의 전처리에 상당히 공을 들여야할 것 같은 데이터였다. 오늘은 그래서 데이터를 EDA하고 전처리를 하는데 대부분의 시간을 할애하였다. 자세한 EDA와 전처리 내용은 전처리가 정해지고 프로젝트가 어느정도 마무리가 되었을 때 따로 팀프로젝트 카테고리에 글로 남기려고 한다. import pandas as pd im..
-
<TIL> 2024-01-24내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 24. 22:07
오늘 진행한 일 데이터 전처리 및 시각화 강의 수강 완료 데이터 주차 개인과제 통계학 강의 내용 복습 및 블로그 작성 오늘은 데이터 전처리 및 시각화 강의를 수강했다. pandas 라이브러리를 이용한 데이터 핸들링과 matplotlib을 이용한 시각화에 대해서 다룬 강의였는데 대부분 아는 내용이었기 때문에 가벼운 마음으로 복습했다. 그리고 오늘 오후 12시에 출제된 데이터 주차 개인과제를 풀었다. 다음주 월요일까지 제출인데 다 풀었기 때문에 덕분에 여유롭게 통계학 공부를 좀 더 진행할 수 있을 것 같다. 그래서 어제 진행하던 t검정에 관해서 마저 정리했다. 아래는 오늘 정리한 t검정 관련 python 코드 정리 블로그 링크이다. https://jinhyunbae.tistory.com/131 t검정(t-t..
-
<TIL> 2023-12-13내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 13. 22:15
내일배움캠프 사전학습캠프도 이제 이틀 남았다. 스파르타코딩클럽 / 데이터 분석 종합반 2,3주차 수강 배운 것 - pandas, matplotlib 활용하는 것(복습) - folium 라이브러리 데이터분석의 기초에 대해서 복습하는 느낌으로 마음편하게 2~3주차를 수강하다가 지도 시각화 라이브러리를 배울 수 있었다. folium 라이브러리 : 지도 위에 interactive하게 표현해주는 파이썬의 지도 시각화 라이브러리 장소의 위경도에 마커를 표시하는 것을 통해서 지도에 시각화를 가능하게 해준다 이런건 태블로로나 하는 줄 알았는데, 역시 나는 우물 안 개구리였다. 나중에 유용하게 써먹을 일이 있을 지도