-
<TIL> 2024-03-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 15. 21:50
- 오늘 진행한 일
- Spark 강의 수강
- 채용공고 및 JD 탐색
어제자 Spark 강의와 마찬가지로 Spark 사용 이전 단계에서
Spark를 다루지 않고 대용량 데이터를 처리하는 방법에 대해서 배웠다.
그 방법은 샘플링과 분할처리였다.
샘플링 기법에 대해서는 머신러닝을 하면서 어느 정도 알고 있는 부분이라고 생각했는데
강의를 들으면서 새롭게 안 사실들이 꽤 있었다.
대용량 파일을 Spark를 쓰지 않고 처리하는 방법
Sampling
전체 데이터가 많아서 분석이 어렵다면 일부 데이터만 분석하는 방법을 사용할 수 있다.
모델을 개발할 때만 샘플링을 하는 방법도 있고, 데이터가 넉넉하면
일부 데이터 분석으로 충분할 수도 있다.
Random Sampling
랜덤 샘플링은 말 그대로 랜덤으로 데이터를 추출한 방법으로 여러 한계점 갖고 있다.
우선 표본이 편향될 가능성이 있고, 매번 그 결과가 달라질 수 있다.
Stratified Sampling
위의 랜덤 샘플링 방식의 한계점을 극복하기 위한 방법으로 층화추출이 있다.
머신러닝에서 분류 알고리즘에 주로 사용되는 방법으로 표본을 추출할 때 대표성이 있는 표본을 추출하기 위해서
집단의 비율을 반영하여 추출하는 방법이다.
층화출은 특정 집단으로의 편향을 줄이는 효과가 있지만
데이터가 커지면 자연스럽게 편향이 줄어드는 효과가 있기도 하다
그러나 여전히 표본이 커져도 매번 결과가 달라진다는 단점이 있다.
Systematic Sampling
계통 추출이라고 하는 Systematic Sampling 방법은 알고 있던 샘플링 방법 중 하나였지만
강의를 찍으신 튜터님이 개인적으로 이 샘플링 방법을 가장 선호한다고 하셔서 놀랐다.
한 번도 모델링이나 통계 분석에 있어서 이 샘플링 방법을 사용해 본 적이 없었는데 이번 강의를 통해서
유용한 샘플링 방법이라는 것을 알게 되었다.
계통 추출은 ID와 같이 패턴이 없거나 순서의 영향을 받지 않는 칼럼을 기준으로 특정 숫자를 기준으로
데이터를 건너뛰어 추출하는 방법이다. 보통은 Systematic sampling에 영향을 줄 수 있는 순서가 ID에 없지만
패턴이 있는지는 검사하는 것이 좋으며 건너뛰는 단위는 소수를 사용해야 특정 패턴을 피하기 좋다
분할처리
샘플링 외에 대용량 데이터를 다루는 방법론 중 하나가 분할 처리이다.
샘플링과 아주 궁합이 좋은 방법론으로
내 컴퓨터에서 메모리에 전체 데이터가 10%가 올라가는 것이 한계라면
10%씩 나누어 10번을 작업하면 된다는 접근 방식이다.
단 데이터가 완벽히 분할되는 경우에 한해 사용이 가능하다.
데이터를 분할하여 파티션으로 나눈 뒤 각 파티션의 데이터를 불러와서
필요한 연산만을 수행한 뒤 최종적으로 결과만을 집계하여 저장하는 방식으로 수행하는 것이다.
채용공고 및 JD 검색
이제 본격적으로 회사도 알아보고 회사에서 요구하는 역량에 대해서도 알아보고
이를 토대로 최종 프로젝트를 고민해보고자 채용공고들을 검색하기 시작했다.
JD에 기술되어 있었던 역량 중에 자주 볼 수 있는 것들은 아래와 같았다.
- SQL을 통해 데이터를 추출/정제할 줄 아는지 여부
- BI 툴을 이용한 데이터 시각화가 가능한지 여부
- 지표를 통해 가설을 A/B 테스트를 설계하고 개선해본 경험
- AARRR, Cohort, Funnel 등 서비스 데이터 분석 방법을 통한 문제 해결 경험
- 프로그래밍 언어(Python, R 등)을 활용해 데이터를 분석해본 경험
- 통계학/머신러닝을 바탕으로 인사이트를 도출할 수 있는 지 여부
- 논리적 사고력, 커뮤니케이션 능력
이 중에서도 SQL과 BI 시각화의 경우는 모든 JD에 빠짐없이 있었으며
관심이 많이가는 이커머스나 플랫폼 관련에서는 서비스 데이터 분석방법을 잘 아는지를 중점으로 보는 것 같았다.
앞으로는 JD에 좀 더 Fit하게 되도록 학습 방향을 조정할 것이다.
태블로 신병 캠프, 그리고 스파르타의 수준별 태블로 학습을 통해서 지표와 서비스 데이터 분석 방법론들을
익혀가면서 SQL 코딩테스트 준비를 좀 더 철저히 해야겠다.
'내일배움캠프(데이터 분석 부트캠프 1기) > TIL & WIL' 카테고리의 다른 글
<TIL> 2024-03-18 (0) 2024.03.18 <WIL> 2024년 3월 둘째 주 회고 (1) 2024.03.15 <TIL> 2024-03-14 (0) 2024.03.14 <WIL> 2024년 3월 첫째 주 회고 (1) 2024.03.08 <TIL> 2024-03-08 (0) 2024.03.08 - 오늘 진행한 일