ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • <TIL> 2023-12-22
    내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 22. 20:06

    내일배움캠프 본 캠프 5일차 

    드디어 첫주차가 마무리 되었다.

     

    오늘은 일주일간 진행했던 팀 프로젝트에 대한 발표와 스파르타 튜터님의 피드백이 있었다.

    https://www.notion.so/B07-d6fd457ccb5d416cb9ceba8e14a75d31

    진행했던 발표의 자료는 위 링크에 있다. 

     

    우리조가 받았던 피드백을 중점으로 TIL을 작성하고자 한다.

    아래는 튜터님이 해주신 피드백이다. 


    RFM 용어를 설명한 것까지는 좋았는데 그에 비해 분석 내용이 부족하여 아쉬웠다.

     

    세그먼트에 대한 리텐션에 유의한 차이를 알기 어려웠다라고 서술하였는데

    발표에서 언급한대로 해커톤 제공 데이터였기 때문일 수도 있지만 아닐 수도 있다.

    유저 세그먼트를 나누기 전에 유저에 대한 구체적인 조작적 정의를 하는 것이 중요하다.

    이 조작적 정의가 빈약해서 유저 세그먼트 간에 지표 차이를 보기 힘들었을 수 있다.

     

    그리고 모든 세그먼트의 리텐션이  60% 내외에 근사했다라고 서술하였는데

    결과를 보면 제일 리텐션이 낮은 집단은 59.87% 높은 집단은 63.89% 정도로 나타난다.

    약 4% 정도의 차이가 수치상 큰 차이가 없어보일 수도 있지만 수익의 관점에서 생각을 해보면 다를 수 있다.

    예를 들어 쿠팡 프리미엄  회원이라면 5000원 정도의 금액이지만, 골프장 회원권이라고 생각해보면

    이 4%의 차이는 상당히 큰 차이일 수 있다.

     

    이런 부분 생각해서 디벨롭해서 자료를 개선하면 훌륭한 내용이 될 수 있을 것 같다.


    데이터 이상치, 결측치 확인 과정 및 정제과정,EDA의 과정과 RFM에 해당하는 지표 데이터를 선정하게 된 과정을 

    3~5분의 짧은 미니 프로젝트 발표 제약사항 때문에  발표자료에 첨가하지 않았던 점이 

    유저에 대한 조작적 정의를 구체적으로 하지 않았다는 피드백을 받은 이유 중 하나가 아닐까 하는 생각을 했다.

     

    다른 조들은 조금 시간이 소요되더라도 꼼꼼하게 해당하는 부분들을 발표자료에 넣어서 잘 전달했기 때문에

    상대적으로 우리 발표자료가 부족하게 느껴졌다. 다음엔 이런 부분 꼭 개선할 것이다.

     

    작은 차이라도 해당 숫자의 차이를 고려할 것이 아니라 가치의 관점에서 접근해야한다는 피드백 또한 머릿속에 입력해서 다음 프로젝트에 반영해야겠다.


    아래는 우리 조 외에 다른 조의 발표에 대한 튜터님의 피드백을 정리한 것이다.

     

    1. 데이터를 분석하는 데 있어 확증편향을 조심해야한다 이미 어떠한 현상이 ~때문에 ~일 것이다라고 생각하고 들어가는 것이 분석을 해석하는데 있어 영향을 줄 수 있다.

    2. 두 변수의 관계를 비교할 때 두 변수에 동시에 영향을 미치거나 다른 한 변수에 영향을 미칠 수도 있는 변수에 대해서 고민해보아야한다. / 이 내용은 가외변인(외생변인, 내생변인)에 대한 내용인 것 같다.

    3. 해당 서비스의 평점이 좋다는 것이 해당 서비스에 신규진입하게 될 때 플러스 요인이 아닐 수 있다. 이미 잘되고 있는 서비스들이 그만큼 있다는 것은 레드오션을 의미하는 것일 수 있다.

    4. ROI(Return on Investment, 투자자본수익률) 관점에서 생각해보는 것이 중요하다. 광고모델을 고른다고 가정했을 때 1억원짜리 광고모델을 고용해서 8천만원의 이익을 내면 손해가 되는것이다. 단순히 지표가 높고 비싼 인플루언서 쓰는 것보다 가성비가 좋은 중간 정도 지표를 가진 인플루언서 여럿을 쓰는 것이 더 나은 상황도 분명 있을 수 있다.

    5. 데이터 분석을 할 땐 분석 결과를 어떻게 활용할 건지를 고민하는 것이 중요하다. 즉 데이터 분석으로 얻어낸 결과 및 인사이트로 어떤 액션을 취할 수 있는 지를 생각해야한다. 

    6. 상위 레벨에서 상관관계가 없었다고 해도 하위레벨로 분할하면 상관관계가 생길 수도 있다 이는 심슨의 역설에 해당하는 상황인데 심슨의 역설은 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다는 의미이다. 즉 각각의 변수에 대해 신경쓰지 않고 전체 통계결과를 유추하다가 일어나는 오류를 의미한다.

    7. 라이프 타임 밸류(LTV, 고객 평생(생애) 가치)란 한명의고객이 우리 비즈니스에서 발생시킬 것으로 예측되는 전체 수익을 의미하며, 리텐션을 돈으로 환산한 지표와도 같다. 이를 추산해보는 것은 굉장히 좋은 분석이다.

    8. 기획의도에 맞는 분석을 하라. 예를들어 이사를 하려고 하는 사람, 신혼집을 구하는 사람들을 위한 데이터를 제공해줄 목적으로 분석을 진행한다면 추가적으로 역세권에 대한 데이터를 구하여 붙인다던지 등을 고민하면 더 풍부하고 좋은 분석이 될 것이다.

     

    피드백 받았던 내용 잊지 말고 기억해서 다음 프로젝트엔 다른 좋은 피드백 받을 수 있게 노력할 것이다. 


    '내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글

    <TIL> 2023-12-26  (1) 2023.12.26
    <WIL> 2023년 12월 3주차 회고  (0) 2023.12.22
    <TIL> 2023-12-21  (1) 2023.12.21
    <TIL> 2023-12-20  (1) 2023.12.20
    <TIL> 2023-12-19  (0) 2023.12.19
Designed by Tistory.