EDA
-
<TIL> 2024-03-29내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 29. 23:30
오늘 진행한 일 최종 프로젝트 데이터 EDA 최종 프로젝트 관련 튜터링 SQL 코드테스트 어제에 이어서 데이터 EDA를 진행했다. 어제는 click_stream에 있는 session에서 booking 이라는 event_name을 가진 행의 payment_status가 Success이거나 Failed인 경우 transaction 테이블에 해당하는 상품의 구매 혹은 취소 데이터가 있다는 것을 알아내었다. 그렇다면 booking이라는 event가 존재하지 않는 session은 없나? 라는 의문이 들었다. 왜냐면 click_stream 테이블은 customer_id를 가지지 않은 테이블이기 때문에 transaction 테이블과의 조인을 통해서만 고객 정보를 알아낼 수 있기 때문이다. 이를 확인함과 동시에 boo..
-
<TIL> 2024-03-28내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 28. 23:21
오늘 진행한 일 최종 프로젝트 데이터 EDA SQL 코드테스트 최종 프로젝트의 주제 e커머스로 선정하고 데이터를 찾았고 지난 실전 프로젝트에서는 데이터 정합성에 대한 이슈와 물류에 대한 이슈를 주로 확인했었는데 이번에는서비스와 고객 중심의 분석을 하기로 결정되었다. e커머스 회사의 데이터를 활용한 서비스 지표 확인 및 고객 이탈 혹은 수요를 예측해보는 것으로 하고 데이터를 탐색하였고 캐글에서 로그가 자세한 패션 커머스 데이터를 찾을 수 있었다. https://www.kaggle.com/datasets/latifahhukma/fashion-campus/data?select=click_stream.csv Fashion Campus www.kaggle.com 데이터의 형태는 아래 그림과 같다. 데이터 양이 방..
-
<심화 프로젝트> 와인 가격 예측 - 1내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 2. 21. 19:29
개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변수를 생성했다. 그리고 전처리된 데이터로 모델링 과정을 진행하였다. 첫 번째로 모델은 결측치를 삭제한 상태에서 모델을 학습하고 성능을 평가했으며 두 번째 모델은 머신러닝을 통해 결측치를 보간한 뒤 학습하여 성능을 평가했다. 세 번째는 두 번째 모델의 결측치 보간 데이터를 사용했으며 모델을 파생변수를 기준으로 둘로 나누어 각각 모델링하였다. 데이터 사용한 데이터는 Kaggle의 Wine Information이라는 데이터였다. 데이터는 한국의 웹사이트에서 얻어진 21605개의 와인 데이터이다. 출처 링크 : https://www.kaggle.com/datasets/dev7halo/wine-informa..
-
<TIL> 2024-02-07내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 7. 22:05
오늘 진행한 일 팀 프로젝트 데이터 탐색적 분석 팀 프로젝트 데이터 전처리 및 튜터링 준비 https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com 팀 프로젝트용 와인 데이터를 받았는데 데이터의 전처리에 상당히 공을 들여야할 것 같은 데이터였다. 오늘은 그래서 데이터를 EDA하고 전처리를 하는데 대부분의 시간을 할애하였다. 자세한 EDA와 전처리 내용은 전처리가 정해지고 프로젝트가 어느정도 마무리가 되었을 때 따로 팀프로젝트 카테고리에 글로 남기려고 한다. import pandas as pd im..