-
<TIL> 2023-12-19내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 19. 22:06
스파르타 코딩클럽 내일배움캠프 2일차
- 오늘 한 일
- SQL 코드카타(프로그래머스 SQL 코딩테스트 문제 풀기)
- 밀린 SQL 코딩테스트 블로그 기록하기 진행
- 팀 프로젝트 데이터 전처리 및 시각화 코드 작성
- 사용한 데이터
어제 배웠던 RFM 고객 세분화 개념을 이용해서
- Recency : 얼마나 최근에 구매했는가
- Frequency : 얼마나 자주 구매했는가
- Monetary : 얼마나 많은 금액을 지출했는가
R: 사용자가 마지막으로 로그인한 시간(일) (int)
F : 월간 활동적인 학습 일수(int)
M : 구독 유형(베이직, 프리미엄 이진 데이터)
이렇게 정의를 하였다.
M의 경우엔 애초에 Basic과 Premium 2개의 집단으로 이루어진 이진 데이터였고
R과 F의 경우 중앙값을 기준으로 높고 낮음을 나누어 2개의 집단으로 설정을 했다
그리고 이렇게 나눈 집단으로 구독갱신을 그래프로 비교하였다. 그래프는 아래와 같다.
그리고 RFM 각각 2개의 집단으로 2의 3제곱 총 8개의 집단으로 세그먼트를 만들었다
그리고 집단 간의 구독갱신의 비율에 차이가 있는 지를 비교하기 위해서 막대그래프를 그렸고
각 그래프의 비율차이가 명확하게 나지 않아서 표로 정리하였다.
구독갱신률이 제일 낮은 집단은 자주 로그인하지 않지만 활동적인 학습일수는 많고 베이직 플랜을 가입한 고객층이고
구독갱신률이 제일 높은 집단은 자주 로그인하지 않고 활동적인 학습일수를 갖고 있고 프리미엄 플랜을 가입한 고객이다.
안타깝게도 데이콘에서 제공해준 이 데이터는 실제 학습 플랫폼 이용자의 다음달 구독 갱신 여부를 예측하기 위한 플랫폼 데이터가 아니라 대회를 위해 머신러닝 학습이 잘 되도록 만들어진 데이터 같다.
집단 별로 구독을 갱신한 비율이 일부 차이가 나는 집단이 있을 것이라고 생각했는데 모오든 집단의 분포가
전체 데이터 중 구독을 갱신한 사람의 비율인 62%와 비슷한 수치로 나온다.
분석 결과 자체는 좀 아쉬웠지만 이렇게 세그먼트 나눠보고 시각화 해보는 경험을 한 것이 어디냐!
이제 부트캠프 첫 주차 미니 프로젝트인데 너무 실망하지 않기로 했다.
- 느낀점
- 완전한 새벽형 인간 올빼미 생활을 하던 나에게 아침 9시에 자리에 앉는 것은 쉽지 않았다. 하지만 취직하면 이 때 출근해야하니 앞으로 4개월 간 바른 생활하면서 익숙해져야지
- 앞으로 프로젝트용으로 데이터를 찾을 땐 EDA 해보고 고르자
'내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글
<TIL> 2023-12-21 (1) 2023.12.21 <TIL> 2023-12-20 (1) 2023.12.20 <TIL> 2023-12-18 (1) 2023.12.18 <TIL> 2023-12-14 (0) 2023.12.14 <TIL> 2023-12-13 (0) 2023.12.13 - 오늘 한 일