ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • <TIL> 2024-03-29
    내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 29. 23:30
    • 오늘 진행한 일 
      • 최종 프로젝트 데이터  EDA
      • 최종 프로젝트 관련 튜터링
      • SQL 코드테스트

     

    ERD

     

    어제에 이어서 데이터 EDA를 진행했다.

     

    어제는 click_stream에 있는 session에서 booking 이라는 event_name을 가진 행의 

    payment_status가 Success이거나 Failed인 경우 transaction 테이블에 해당하는 상품의 구매 혹은 취소 

    데이터가 있다는 것을 알아내었다. 

     

    그렇다면 booking이라는 event가 존재하지 않는 session은 없나? 라는 의문이 들었다. 

    왜냐면 click_stream 테이블은 customer_id를 가지지 않은 테이블이기 때문에 

    transaction 테이블과의 조인을 통해서만 고객 정보를 알아낼 수 있기 때문이다.

     

    이를 확인함과 동시에 booking event가 두 번 이상 일어난 session은 없는지도 확인하였다. 

     

    # 데이터 적재용 빈 리스트
    more_booking_session_list = []
    booking_session_list = []
    no_booking_session_list = []
    
    for keys, groups in tqdm(click_stream.groupby('session_id')) :
        
        # 그룹 불러오기(temp에 적재), event_time 번호 순으로 정렬
        temp = groups.sort_values('event_time').reset_index(drop=True)
        
        #session 내에 BOOKING event가 존재하면 booking_session_list 적재
        if (temp['event_name']=='BOOKING').sum() == 1 : 
            booking_session_list.append(temp)
        elif (temp['event_name']=='BOOKING').sum() > 1 : 
            more_booking_session_list.append(temp)
        #session 내에 BOOKING event가 존재하지 않으면 no_booking_session_list 적재
        else : 
            no_booking_session_list.append(temp)
    click_stream_nobooking = pd.concat(no_booking_session_list)
    click_stream_booking = pd.concat(booking_session_list)
    click_stream_morebooking = pd.concat(more_booking_session_list)

     

    위 코드를 통해 확인해본 결과 두 번의 booking이 일어난 session 데이터는 존재하지 않았으며

    booking이 1번 존재하는 session이 852582개, booking이 존재하지 않는 데이터가 42621개 인 것을 확인할 수 있었다. 

     

    booking  event가 없다는 것은 구매 자체가 이뤄지지 않고 중단된 session이라는 것인데

    중단된 고객의 session 정보가 42621개 유실되었다는 것을 의미한다. 

     

    그렇지만 85만개가 넘는 데이터가 있기 때문에 분석에는 큰 영향이 있을 것으로 보이지는 않았다. 


    분석에 대한 방향성을 잡고 조언을 받기 위해서 튜터님께 방문하였고

     

    기존에 하려고했던 분석 범위보다 조금 더 넓게 하면 좋을 것 같다는 조언과 함께 

    패션 e커머스와 관련된 여러 도메인 지식을 배웠다. 

     

    받은 튜터링은 아래와 같다. 

     

    • 패션 커머스는 고객 정보가 중요하기 때문에 고객에 대한 분석을 심도있게 해보면 좋다(RFM 세그먼트, VIP의 유무, 등 고객의 패턴들에 대한 분석을 해보는 것을 추천)
    • 패션 커머스는 계절에 영향을 많이 받는 산업이기 때문에 시즈널한 부분이 있을 것이다. 그 부분을 확인해보는 것이 좋겠다. 
    • 고객에 대한 분석이 어느 정도 되고 비즈니스 특성들을 알고 난 뒤에 활성 유저와 이탈에 관해서 정의하는 것이 좋을 것 같고 복귀(부활) 유저에 대해서 보는 것도 좋을 것 같다. 
    • 데이터에 프로모션에 관련된 부분이 포함되어 있는데 패션 커머스에서는 프로모션에 관한 부분이 매우 중요하기 때문에 이에 대한 부분을 분석해서 대시보드로 나타내는 것이 좋을 것 같다.

    프로모션 대시보드와 관련해서 참고 링크자료도 받아서 이를 보고 프로젝트에 반영해보려고 한다. 

     

    https://tableauwiki.com/tableau-coupon-promotion-monitoring-dashboard/

     

    쿠폰 프로모션 실시간 성과 모니터링 대시보드 - TABLEAU WIKI

    쿠폰 마케팅은 거의 모든 서비스에서 오랜기간 사랑받아온 마케팅 전략입니다. 태블로를 이용 쿠폰의 효과를 즉각적이고 지속적으로 판단할 수 있는 모니터링 대시보드를 소개합니다.

    tableauwiki.com

     

    '내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글

    <TIL> 2024-04-02  (0) 2024.04.02
    <WIL> 2024년 3월 마지막 주 회고  (0) 2024.03.29
    <TIL> 2024-03-28  (1) 2024.03.28
    <TIL> 2024-03-26  (1) 2024.03.26
    <TIL> 2024-03-21  (0) 2024.03.21
Designed by Tistory.