-
<TIL> 2024-02-27내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 28. 10:57
- 오늘 진행한 일
- SQL 코딩 테스트
- 개인 프로젝트 시작
오늘 오전도 평소와 동일하게 SQL 코딩테스트로 시작했다.
SQL 입사 코딩테스트를 수월하게 풀 수 있는 수준까지 끌어올려서
폼을 유지하는 걸 목표로 하고 있기 때문에 부트캠프가 끝나는 4월말까지 꾸준하게
하루 3문제 이상을 풀 예정이다.
어제 자로 태블로 개인과제를 마무리했기 때문에 내일 오후까지 학습을 할 게 필요했다.
튜터님이 개인 과제를 선정한 이유에 대해서 튜터링 시간에 대화를 나눌 기회가 있었는데
태블로 대시보드 포트폴리오가 상당히 강력하며, A/B테스트와 관련해 통계학적인 지식을 면접에서
많이 요구하기 때문에 이를 대비시키고자 선정하였다고 하셨다.
그 부분에 대한 고민을 포함해 남은 시간을 어떻게 보낼까 생각을 하다
개인 프로젝트를 진행해보기로 마음을 먹었다.
그래서 다른 A/B 테스트에 대한 내용이 담긴 Kaggle 데이터를 찾았다.
https://www.kaggle.com/datasets/yufengsui/mobile-games-ab-testing
이 데이터는 cookie cats라는 모바일 게임 유저의 과금유도 장벽에 대해 실행한 A/B 테스트 데이터이다.
원래는 레벨 30대에서 이 데이터에서 gate라고 불리는 과금유도 장벽(장치)가 설치되어 있는데
유저들은 이 구간에서 상당히 많은 시간을 소요하거나 혹은 과금을 하도록 유도를 받는다고 한다.
이런 게이트가 단순히 과금유도 뿐만 아니라 즐거운 유저경험을 촉진하도록 하는 목적을 가지고 있다고 한다.
글쎄요...해당 데이터는 이러한 게이트를 40레벨에 할당시킨 유저와 그렇지 않고 기존 30레벨에 있었던 유저 간의
게임 플레이 횟수, 잔존율에 관한 데이터이다.
version은 통제와 실험집단 이진 데이터이고
sum_gamerounds는 게임 설치 후 첫 14일간 플레이한 라운드의 횟수이다.
retention1은 설치 후 다음 날 게임을 플레이했는지 여부(True/False)이고
retention7은 설치 후 7일 뒤 게임을 플레이 했는지에 대한 여부(True/False)이다.
오후 시간은 이 데이터를 EDA를 하는 데에 대부분의 시간을 보냈다.
통제 집단과 실험집단은 각각 50%로 균일하게 나타났고
retention 1과 7을 보면 1에서는 많았던 True 데이터가 7에서는 절반 이하로 줄어든 것을 확인할 수 있다.
통계적으로 유의미한 차이가 나타나는지는 검증을 해봐야겠지만 gate_30에 비해
gate_40의 경우 retention1은 조금 높고, retention7낮은 것을 확인할 수 있다.
sum_gamerounds의 경우 5만라운드에 가까운 플레이 횟수를 보인 데이터가 1개 존재하는 것을 확인할 수 있다.
이 데이터를 빼고 히스토그램으로 시각화를 해본 결과는 아래 그래프와 같다.
데이터가 상당히 우측으로 편포되어 있는 것을 확인할 수 있다.
내일은 데이터 이상치를 정제하고 시각화 및 통계분석을 하는 것이 목표이다.
'내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글
<TIL> 2024-02-29 (0) 2024.02.29 <TIL> 2024-02-28 (0) 2024.02.28 <TIL> 2024-02-26 (0) 2024.02.26 <WIL> 2024년 2월 4주차 회고 (0) 2024.02.23 <TIL> 2024-02-23 (0) 2024.02.23 - 오늘 진행한 일