ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 리터러시(Data Literacy) -1
    데이터 분석 관련 공부 2024. 1. 3. 15:00

    (본 블로그는 스파르타의 데이터 리터러시 강의를 듣고 간략하게 정리한 것이다.)

     

    데이터 리터러시(Data Literacy)

    • 데이터 리터러시의 정의
      • 데이터를 읽는 능력
      • 데이터를 이해하는 능력
      • 데이터를 비판적으로 분석하는 능력
      • 결과를 의사소통에 활용할 수 있는 능력

    데이터 리터러시란 데이터 수집과 원천을 이해하고 데이터에 대한 활용법을 이해하며, 데이터를 통한 핵심 지표를 이해하는 것이다. 데이터 분석가가 갖추어야할 중요한 소프트 스킬이다. 

     

    데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어준다


    데이터 분석 오류

    데이터 리터러시 문제로 인해 데이터 분석에서 오류를 범하는 경우가 많다. 대표적인 오류 사례는 다음과 같다. 

     

    1. 심슨의 역설(Simpson's Paradox)

    부분에서 성립한 대소 관계가 부분들을 종합한 전체에 대해서는 성립하지 않는 모순적인 경우를 말한다.

    전체에 대한 결론을 언제나 개별 집단에 그대로 적용할 수도 없으며 데이터에 기반한 결론이라 할지라도 맹목적으로 받아들여서는 안된다는 교훈을 얻을 수 있다.

     

    2. 시각화로 인한 왜곡

    출처 : https://yozm.wishket.com/magazine/detail/1821/

     

    데이터의 기준선, X축과 Y축의 스케일, 누적 그래프를 이용한 눈속임, 3D 그림을 이용한 왜곡 등 

    자료의 표현 방법에 따라서 해석의 오류의 여지가 존재하는 것을 말한다. 

     

    3. 샘플링 편향(Sampling Bias)

    전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생하는 것을 말한다. 

    출처 : 데이터 과학을 위한 통계 / 한빛 미디어

    표본이 편향되게 되면 그로 인해 얻은 결과 또한 편향될 가능성이 매우 높다.

     

    4. 상관관계와 인과관계

    상관관계: 한 변수의 증가에 따라 다른 변수가 증가/감소하는지 추이를 파악하는 것으로 두 변수가 얼마나 상호 의존적인지

                     를 파악하는 것이지 인과를 알 수는 없음

    인과관계 : 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태로 원인 결과가 명확함

     

    상관관계를 인과관계로 오인하지 않도록 유의해야하고, 상관관계만으로 섣부르게 의사결정을 하지 않도록 유의해야한다.

    양쪽을 모두 고려하여 합리적인 의사판단을 해야한다.


    데이터 분석 접근법

    데이터 리터러시가 필요한 문제 및 가설 정의에서의 '생각' 부분에서의 고민이 부족해  문제가 되는 경우가 많다. 

    풀고자 하는 문제를 명확하게 정의해야한다는 것이다. 데이터 분석 자체가 목적이 되지 않도록 '왜?'를 항상 생각해야 한다.


    문제 정의

    문제정의란 데이터 분석 프로젝트의 성공을 위한 초석으로 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술이다. 문제정의를 통해 프로젝트의 목표와 분석 방향이 결정된다. 그문제 정의를 잘 해야 분석을 통해 더 나은 방향으로의 액션 플랜을 수립하는 것도 가능해진다.

     

    패션 플랫폼 A에서 매출을 증대 시키고 싶다고 할 때 문제의 정의를 지속적 매출 감소를 해결하기 위한 매출 증대 방안 찾기로 정의했다고 하자 이런 경우 문제를 정의하긴 했지만 그 문제 정의가 매우 모호하다.

     

    문제정의가 모호한 경우 데이터 분석의 방향성을 잡기가 어렵기 때문에 문제정의는 구체적이어야한다. 

     

    따라서 다음과 같이 문제를 정의해보는 것이 좋겠다. 

    6개월 간 25~35세 여성 고객층의 구매 전환율(*)이 급격히 감소했다. 해당 고객 층의 전환율을 현재 2%에서 5%로 끌어올리기 위해 어떤 마케팅 전략을 적용할 수 있을지

    * 구매전환율 : 고객이 방문한 후 구매까지 전환 됐는지 여부 [(구매 고객수 / 방문 고객수) * 100(%)]

     

    위 처럼 구체적인 목표치, 전략 등을 명시했을 때 데이터 분석의 방향성을 잃지 않고 진행할 수 있다.

    문제 정의 방법론 : MECE

    출처 : https://www.myconsultingoffer.org/case-study-interview-prep/mece/

    MECE(Mutually Exclusive, Collectively Exhaustive)

    문제 해결과 분석에서 널리 사용되는 접근 방식 (발음은 미씨라고 읽는다)

     

    문제를 상호 배타적(ME)이면서 전체적으로 포괄적(CE)인 구성요소로 나누는 것이다. 이를테면 중복되지 않으면서 누락없이 나누어 놓은 것이라고 할 수 있다.

    MECE를 통해 복잡한 문제를 체계적으로 분해하고 구조화된 방식으로 분석할 수 있다.

     

    문제 정의 방법론 : Logic Tree

    출처 : 스파르타 데이터 리터러시 강의 자료

    로직 트리(Logic Tree)

    MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위문제로 분해하기 위해서 사용

    상위 문제에서 시작하여 하위 문제로 계층적으로 접근함

    일반적으로 도표 형식으로 표현되어 파악이 용이함

     

    로직트리 Cheat Sheet

     

    비즈니스 도메인이나 분석 상황에 맞게 커스터마이징 해서 사용해보면 좋을 것 같다.

     

    문제 정의의 핵심 : So What?  Why So?

    So What? : 수집한 정보에서 결국 어떻다는 것인지를 알아내는 작업으로 과제의 답변에 맞는 핵심을 추출하는 작업

    Why So? : 왜 그렇게 말할 수 있는지 구체적으로 무슨 뜻인지를 검증하는 작업, So What으로 얻어낸 요소의 

                      타당성을 자료 전체 혹은 그룹핑 요소로 증명할 수 있다는 사실을 검증하는 작업

    도식화한 로직 트리가 위의 두 법칙에 맞는지를 확인하는 것을 통해 문제정의의 논리적 구조를 잘 구축할 수 있다.

     

    문제정의와 관련 된 팁

    • 결과를 공유하고자 하는 사람이 누구인지를 정의하기
    • 결과를 통해 원하는 변화를 생각하기
    • 회사 소속이라면 경영자의 입장에서 보려고 노력할 것
    • 혼자서 오래 고민해보는 시간을 가질 것
    • 많은 사람과 의견을 나누어보는 것도 방법임

    다음 게시물 : 데이터 리터러시-2 <https://jinhyunbae.tistory.com/98>

     

    데이터 리터러시(Data Literacy) -2(작성중)

    본 블로그는 스파르타의 데이터 리터러시 강의를 듣고 간략하게 정리한 것이다.) 데이터 유형 정량적 데이터 수치로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음 데이터가 숫자 형

    jinhyunbae.tistory.com


Designed by Tistory.