-
<TIL> 2024-03-29내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 29. 23:30
- 오늘 진행한 일
- 최종 프로젝트 데이터 EDA
- 최종 프로젝트 관련 튜터링
- SQL 코드테스트
ERD 어제에 이어서 데이터 EDA를 진행했다.
어제는 click_stream에 있는 session에서 booking 이라는 event_name을 가진 행의
payment_status가 Success이거나 Failed인 경우 transaction 테이블에 해당하는 상품의 구매 혹은 취소
데이터가 있다는 것을 알아내었다.
그렇다면 booking이라는 event가 존재하지 않는 session은 없나? 라는 의문이 들었다.
왜냐면 click_stream 테이블은 customer_id를 가지지 않은 테이블이기 때문에
transaction 테이블과의 조인을 통해서만 고객 정보를 알아낼 수 있기 때문이다.
이를 확인함과 동시에 booking event가 두 번 이상 일어난 session은 없는지도 확인하였다.
# 데이터 적재용 빈 리스트 more_booking_session_list = [] booking_session_list = [] no_booking_session_list = [] for keys, groups in tqdm(click_stream.groupby('session_id')) : # 그룹 불러오기(temp에 적재), event_time 번호 순으로 정렬 temp = groups.sort_values('event_time').reset_index(drop=True) #session 내에 BOOKING event가 존재하면 booking_session_list 적재 if (temp['event_name']=='BOOKING').sum() == 1 : booking_session_list.append(temp) elif (temp['event_name']=='BOOKING').sum() > 1 : more_booking_session_list.append(temp) #session 내에 BOOKING event가 존재하지 않으면 no_booking_session_list 적재 else : no_booking_session_list.append(temp)
click_stream_nobooking = pd.concat(no_booking_session_list) click_stream_booking = pd.concat(booking_session_list) click_stream_morebooking = pd.concat(more_booking_session_list)
위 코드를 통해 확인해본 결과 두 번의 booking이 일어난 session 데이터는 존재하지 않았으며
booking이 1번 존재하는 session이 852582개, booking이 존재하지 않는 데이터가 42621개 인 것을 확인할 수 있었다.
booking event가 없다는 것은 구매 자체가 이뤄지지 않고 중단된 session이라는 것인데
중단된 고객의 session 정보가 42621개 유실되었다는 것을 의미한다.
그렇지만 85만개가 넘는 데이터가 있기 때문에 분석에는 큰 영향이 있을 것으로 보이지는 않았다.
분석에 대한 방향성을 잡고 조언을 받기 위해서 튜터님께 방문하였고
기존에 하려고했던 분석 범위보다 조금 더 넓게 하면 좋을 것 같다는 조언과 함께
패션 e커머스와 관련된 여러 도메인 지식을 배웠다.
받은 튜터링은 아래와 같다.
- 패션 커머스는 고객 정보가 중요하기 때문에 고객에 대한 분석을 심도있게 해보면 좋다(RFM 세그먼트, VIP의 유무, 등 고객의 패턴들에 대한 분석을 해보는 것을 추천)
- 패션 커머스는 계절에 영향을 많이 받는 산업이기 때문에 시즈널한 부분이 있을 것이다. 그 부분을 확인해보는 것이 좋겠다.
- 고객에 대한 분석이 어느 정도 되고 비즈니스 특성들을 알고 난 뒤에 활성 유저와 이탈에 관해서 정의하는 것이 좋을 것 같고 복귀(부활) 유저에 대해서 보는 것도 좋을 것 같다.
- 데이터에 프로모션에 관련된 부분이 포함되어 있는데 패션 커머스에서는 프로모션에 관한 부분이 매우 중요하기 때문에 이에 대한 부분을 분석해서 대시보드로 나타내는 것이 좋을 것 같다.
프로모션 대시보드와 관련해서 참고 링크자료도 받아서 이를 보고 프로젝트에 반영해보려고 한다.
https://tableauwiki.com/tableau-coupon-promotion-monitoring-dashboard/
쿠폰 프로모션 실시간 성과 모니터링 대시보드 - TABLEAU WIKI
쿠폰 마케팅은 거의 모든 서비스에서 오랜기간 사랑받아온 마케팅 전략입니다. 태블로를 이용 쿠폰의 효과를 즉각적이고 지속적으로 판단할 수 있는 모니터링 대시보드를 소개합니다.
tableauwiki.com
'내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글
<TIL> 2024-04-02 (0) 2024.04.02 <WIL> 2024년 3월 마지막 주 회고 (0) 2024.03.29 <TIL> 2024-03-28 (1) 2024.03.28 <TIL> 2024-03-26 (1) 2024.03.26 <TIL> 2024-03-21 (0) 2024.03.21 - 오늘 진행한 일