ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • <TIL> 2024-03-28
    내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 28. 23:21
    • 오늘 진행한 일 
      • 최종 프로젝트 데이터  EDA
      • SQL 코드테스트

    최종 프로젝트의 주제 e커머스로 선정하고 데이터를 찾았고

    지난 실전 프로젝트에서는 데이터 정합성에 대한 이슈와 물류에 대한 이슈를 주로 확인했었는데

     

    이번에는서비스와 고객 중심의  분석을 하기로 결정되었다. 

     

    e커머스 회사의 데이터를 활용한 서비스 지표 확인 및 고객 이탈 혹은 수요를 예측해보는 것으로 하고 

    데이터를 탐색하였고 캐글에서 로그가 자세한 패션 커머스 데이터를 찾을 수 있었다. 

     

    https://www.kaggle.com/datasets/latifahhukma/fashion-campus/data?select=click_stream.csv

     

    Fashion Campus

     

    www.kaggle.com


    데이터의 형태는 아래 그림과 같다. 

    Fashion Campus ERD

     

    데이터 양이 방대하다보니 ydata_profiling을 통해서 히스토그램과 바 그래프로 시각화를 간단하게 해보았다. 

     

    profiling report

     

    이벤트 시간과 이벤트 종류가 모여있는 데이터 테이블인 click stream에 결측치가 많아서 왜 그런지 데이터를 

    뜯어보았다. 

    결측치

     

    확인 결과 event_name이 Search인 경우에 한해 search_keywords가 있고 

    add_to_cart인 경우에만 product_id, quantity, item_price가 있는 식으로

    특정 event에 해당하지 않으면 다 null 값 처리된 행들이 대부분이었기 때문이다.

     

    아래 session 데이터의 경우 Booking 이벤트의 payment_status가

    Success로 구매가 확정된 것을 알 수 있었다. 

    click stream data(Success)

     

    해당하는 session_id인 transaction 테이블의 데이터를 확인해보니 카트에 넣은 아이템을

    할인 코드 적용을 받아서 구매한 이력이 있는 것을 확인할 수 있었다.

    이를 통해 누가 구매했고, 얼마나 구매했으며 얼마를 할인 받았는지 확인할 수 있었으며

     

    transaction data(Success)


    Booking이벤트의 payment_status가 failed인 경우에는 데이터에 조금 이상이 있는 것으로 관측이 되는 세션들이 있었는데

    세션의 event_time이 3일이나 뒤에 search가 한 번 더 찍힌 것을 확인할 수 있었다. 

     

    데이터 정합성에 대한 문제가 있는 지 확인해 볼 필요가 있겠다는 생각을 하였다. 

    click stream data(Failed)

     

    그리고 해당하는 transaction도 payment status Failed인 것을 확인할 수 있다. 

    transaction data(Failed)

     

    해당 Status를 통해서 매출이 얼마나 났는지를 확인할 수 있을 것이고 

    위 세션들이 존재하는 것으로 활성 유저인지 아닌 지를 판단할 수 있을 것이라 생각했다.

    조금 더 데이터를 뜯어봐야 하겠지만 그래도 데이터가 어떻게 구성되어 있는 지는 확인할 수 있었다.


    내일은 이 데이터를 통해서 분석할 수 있는 프로덕트 분석 기법이 어떤 것이 있는지

    그리고 해당 기법을 위해서는 어떤 데이터 전처리가 필요한 지를 확인해보고

    도전해 볼 것이다.

    '내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글

    <WIL> 2024년 3월 마지막 주 회고  (0) 2024.03.29
    <TIL> 2024-03-29  (0) 2024.03.29
    <TIL> 2024-03-26  (1) 2024.03.26
    <TIL> 2024-03-21  (0) 2024.03.21
    <TIL> 2024-03-20  (0) 2024.03.20
Designed by Tistory.