<TIL> 2024-01-11
- 오늘 한 것
- 팀프로젝트 발제
- 프로젝트 데이터 탐색
- 데이터 전처리 및 시각화
오늘 오전 9시부터 1월 11일부터 18일까지 진행되는 프로젝트 발제가 진행되었다.
이번 프로젝트는 도메인을 설정해 설정한 데이터를 SQL을 활용해 데이터를 분석하는 프로젝트이다.
팀 프로젝트의 도메인은 마케팅으로 선택했기 때문에 고객과 상품 구매에 대한 데이터를 위주로 탐색을 했고
캐글의 고객 성격 분석 데이터를 선정하였다.
https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis
Customer Personality Analysis
Analysis of company's ideal customers
www.kaggle.com
과제의 조건에 SQL에 익숙해지기 위해서 2개 이상의 테이블을 사용해 JOIN할 수 있도록 하라고 하였기 때문에
여러 개의 파일이 있는 데이터를 찾으려고 했으나 대부분 캐글 데이터는 1개의 파일로 구성되어 있었다.
따라서 위 데이터를 유사한 컬럼끼리 묶어서 4개 테이블로 나누어 프로젝트를 진행하기로 했다. 데이터는 파이썬 판다스 라이브러리를 이용해서 4개의 CSV파일로 분할하여 DB 테이블에 적재했다.
고객 ID를 기본키, 외래키로 하여 테이블을 4개 위 사진과 같이 만들어주었다.
위 데이터를 이용해 고객이 특정 카테고리를 선호하는지 파악하고, 그룹핑(Segmentation)을 진행하고
분류된 Segment를 기준으로 마케팅 전략을 수립하는 방향으로 프로젝트를 진행하려고 한다.
SQL로 데이터를 보기 전에 우선 익숙하지 않은 SQL대신 좀 더 익숙한 Python 판다스를 이용해
데이터 칼럼에 결측치, 이상치가 존재하는지를 판단하였고, 간단한 막대그래프와
히스토그램을 이용한 시각화를 진행하였다.
내일은 가설을 설정해서 본격적으로 SQL로 쿼리를 짜고
쿼리 결과를 시각화 하는 방향으로 프로젝트를 진행해보고자한다.
* 이번 프로젝트에서는 내가 발표자를 맡게 되었다. 비록 돌려돌려 돌림판에서 행운(?)으로 당첨되었지만...
기왕 하기로 한 거 목표는 팀 내 기여도 1등, 분석도 잘하고 커뮤니케이션도 잘하고 발표도 잘하는 올라운더가 되는 것!
18일까지 한 번 가보자고