-
<TIL> 2024-01-11내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 11. 23:13
- 오늘 한 것
- 팀프로젝트 발제
- 프로젝트 데이터 탐색
- 데이터 전처리 및 시각화
오늘 오전 9시부터 1월 11일부터 18일까지 진행되는 프로젝트 발제가 진행되었다.
이번 프로젝트는 도메인을 설정해 설정한 데이터를 SQL을 활용해 데이터를 분석하는 프로젝트이다.
팀 프로젝트의 도메인은 마케팅으로 선택했기 때문에 고객과 상품 구매에 대한 데이터를 위주로 탐색을 했고
캐글의 고객 성격 분석 데이터를 선정하였다.
https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis
Customer Personality Analysis
Analysis of company's ideal customers
www.kaggle.com
과제의 조건에 SQL에 익숙해지기 위해서 2개 이상의 테이블을 사용해 JOIN할 수 있도록 하라고 하였기 때문에
여러 개의 파일이 있는 데이터를 찾으려고 했으나 대부분 캐글 데이터는 1개의 파일로 구성되어 있었다.
따라서 위 데이터를 유사한 컬럼끼리 묶어서 4개 테이블로 나누어 프로젝트를 진행하기로 했다. 데이터는 파이썬 판다스 라이브러리를 이용해서 4개의 CSV파일로 분할하여 DB 테이블에 적재했다.
DBeaver 데이터 고객 ID를 기본키, 외래키로 하여 테이블을 4개 위 사진과 같이 만들어주었다.
위 데이터를 이용해 고객이 특정 카테고리를 선호하는지 파악하고, 그룹핑(Segmentation)을 진행하고
분류된 Segment를 기준으로 마케팅 전략을 수립하는 방향으로 프로젝트를 진행하려고 한다.
SQL로 데이터를 보기 전에 우선 익숙하지 않은 SQL대신 좀 더 익숙한 Python 판다스를 이용해
데이터 칼럼에 결측치, 이상치가 존재하는지를 판단하였고, 간단한 막대그래프와
히스토그램을 이용한 시각화를 진행하였다.
고객 학력 데이터 막대그래프 고객의 가계 연간 수입 히스토그램 내일은 가설을 설정해서 본격적으로 SQL로 쿼리를 짜고
쿼리 결과를 시각화 하는 방향으로 프로젝트를 진행해보고자한다.
* 이번 프로젝트에서는 내가 발표자를 맡게 되었다. 비록 돌려돌려 돌림판에서 행운(?)으로 당첨되었지만...
기왕 하기로 한 거 목표는 팀 내 기여도 1등, 분석도 잘하고 커뮤니케이션도 잘하고 발표도 잘하는 올라운더가 되는 것!
18일까지 한 번 가보자고
'내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글
<WIL> 2024년 1월 2주차 회고 (0) 2024.01.12 <TIL> 2024-01-12 (0) 2024.01.12 <TIL> 2024-01-10 (0) 2024.01.10 <TIL> 2024-01-09 (0) 2024.01.09 <TIL> 2024-01-08 (0) 2024.01.08 - 오늘 한 것