되어보자
-
<TIL> 2024-03-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 15. 21:50
오늘 진행한 일 Spark 강의 수강 채용공고 및 JD 탐색 어제자 Spark 강의와 마찬가지로 Spark 사용 이전 단계에서 Spark를 다루지 않고 대용량 데이터를 처리하는 방법에 대해서 배웠다. 그 방법은 샘플링과 분할처리였다. 샘플링 기법에 대해서는 머신러닝을 하면서 어느 정도 알고 있는 부분이라고 생각했는데 강의를 들으면서 새롭게 안 사실들이 꽤 있었다. 대용량 파일을 Spark를 쓰지 않고 처리하는 방법 Sampling 전체 데이터가 많아서 분석이 어렵다면 일부 데이터만 분석하는 방법을 사용할 수 있다. 모델을 개발할 때만 샘플링을 하는 방법도 있고, 데이터가 넉넉하면 일부 데이터 분석으로 충분할 수도 있다. Random Sampling 랜덤 샘플링은 말 그대로 랜덤으로 데이터를 추출한 방법으..