-
<TIL> 2024-02-29내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 29. 22:46
- 오늘 진행한 일
- SQL 코딩 테스트
- 팀 프로젝트 발제
- 팀 프로젝트 데이터 선정 및 간단한 EDA
오전에는 실전 팀프로젝트의 발제가 있었다.
팀 프로젝트에서 활용할 데이터가 위 사진처럼 5개 주어지고 그 중에 하나를 선택해야 했는데
우리 조는 [그룹 E] 커머스 데이터 품질 검사 데이터를 선택하였다.
데이터는 캐글을 looker E-커머스 빅쿼리 데이터이다.
https://www.kaggle.com/datasets/mustafakeser4/looker-ecommerce-bigquery-dataset?select=events.csv
위 데이터를 선택한 가장 큰 이유는 데이터의 품질을 판단할 수 있는 역량을 기를 수 있을 것이라고 생각했기 때문이고
이를 대시보드화 한다면 아주 괜찮은 포트폴리오가 될 것이라고 생각했기 때문이다.
커머스 데이터가 잘 적재되고 있는지를 확인하고 시각화하는 것이 과제의 목표인데
따라서 데이터를 신뢰하기 보다는 문제점이 있는지를 의심하고 품질을 검사 해야한다.
이를 태블로로 시각화하는 이유는 커머스 데이터가 실시간으로 적재되기 때문에
이를 지속적으로 관찰할 필요가 있기 때문이다.
데이터 정합성 부분은 이때까지 다뤄보지 않았던 부분이라는 점도 선택의 이유였다.
데이터 분석가로 일을 하는데 있어서 데이터의 정합성을 검증하는 일이 많고 이를 대시보드화 하여서
데이터 엔지니어와 소통해야 한다는 튜터님의 말씀도 데이터를 선정하는데 있어 주요한 요인으로 작용하였다.
주제 선정 후에는 일주일 간의 프로젝트 계획을 세우고
데이터를 뜯어보았다.
전체 데이터 중에 사용할 데이터는 events와 order_items인데
각 데이터 컬럼에 대한 설명은 위 사진과 같다.
오늘은 완전 기초적인 결측치 확인 등의 데이터 열어보기(?) 였다.
EDA라고 하기엔 너무 한게 없어..user_id에 대해서는 데이터 절반이 결측치였다.
그리고 city 데이터에 약간의 결측치가 존재한다.
이번 데이터를 다루는 데 있어서 중요한 컬럼은 user_id와 session_id 그리고
created_at, event_type이다.
세션이란 동일한 사용자가 한번 방문하여 발생시킨 ‘히트’의 집합으로.
히트의 집합을 세션으로 그룹을 지은 것이라 생각할 수 있다.
그리고 created_at은 해당 세션의 event가 발생한 시간이며, event_type은 어떤 이벤트가 발생 했는지이다.
정합성을 검정하는데 있어서 세션이 30분이상 유지되는 이상한 세션이 존재하는지
한 유저가 여러 도시에서 접속하지는 않는지 등을 점검할 필요가 있다.
데이터를 확인해본 결과 각 세션에 대한 sequence번호가 있고 제품을 보고 카트에 담는 식의 한 세션 안에서의
이벤트의 진행과정을 확인할 수 있었다.
https://jinhyunbae.tistory.com/169
그리고 데이터를 저당히 훑어본 뒤 오후에는 BI 대시보드 개인과제에 대한 블로그를 작성하였다.
이번 주 일요일 부터는 본격적으로 EDA를 해보고 대시보드에 대한 스케치를 해볼 예정이다.
'내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글
<TIL> 2024-03-04 (2) 2024.03.04 <WIL> 2024년 2월 마지막 주 회고 (0) 2024.02.29 <TIL> 2024-02-28 (0) 2024.02.28 <TIL> 2024-02-27 (2) 2024.02.28 <TIL> 2024-02-26 (0) 2024.02.26 - 오늘 진행한 일