분류 전체보기
-
<TIL> 2024-03-15내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 15. 21:50
오늘 진행한 일 Spark 강의 수강 채용공고 및 JD 탐색 어제자 Spark 강의와 마찬가지로 Spark 사용 이전 단계에서 Spark를 다루지 않고 대용량 데이터를 처리하는 방법에 대해서 배웠다. 그 방법은 샘플링과 분할처리였다. 샘플링 기법에 대해서는 머신러닝을 하면서 어느 정도 알고 있는 부분이라고 생각했는데 강의를 들으면서 새롭게 안 사실들이 꽤 있었다. 대용량 파일을 Spark를 쓰지 않고 처리하는 방법 Sampling 전체 데이터가 많아서 분석이 어렵다면 일부 데이터만 분석하는 방법을 사용할 수 있다. 모델을 개발할 때만 샘플링을 하는 방법도 있고, 데이터가 넉넉하면 일부 데이터 분석으로 충분할 수도 있다. Random Sampling 랜덤 샘플링은 말 그대로 랜덤으로 데이터를 추출한 방법으..
-
<TIL> 2024-03-14내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 14. 23:47
오늘 진행한 일 학습 주차 팀빌딩 Spark 강의 수강 그저께 까지는 실전 프로젝트 조와 프로젝트를 진행하였고 어제는 인터넷 관련 문제를 해결하고 국민 취업 지원제도 관련 상담도 받고 팀 프로젝트 회고를 진행하는 등 정신없는 하루들을 보냈다. 그래서 신청했던 F&B 태블로 신병 훈련소 과정이 4일차에 접어들었는데도 아직 한 문제도 풀어보질 못하였다. 그래도 과제 제출은 3월 20일까지니까 주말까지 활용하여 과제를 제출하고자한다. F&B를 위한 태블로 신병훈련소 2024.03 F&B를 위한 태블로 신병훈련소 2024.03 www.salesforce.com 오늘은 최종 프로젝트 전에 진행될 학습 주차에서의 조 편성이 있었다. 팀프로젝트를 함께하는 조는 아니기 때문에 간단한 자기소개를 나누는 시간을 가지고 오..
-
실전 프로젝트 KPT 회고내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 3. 13. 12:19
KPT회고 - 프로젝트 기간 : 2024.03.01 ~ 2024.03. 12 - 조 이름 : 데이터 몬스터(A03) - 조원 : 권재혁, 김승연, 배진현(나), 이태림 Keep : 잘하고 있으며 앞으로도 지속 했으면 좋겠겠다고 생각하는 점. Problem : 문제가 있으며 변화가 필요한 점. Try : 잘하고 있는 것을 더 잘하기 위해서, 문제가 있는 점을 해결하기 위해서 우리가 시도해 볼 것들 Keep : 팀원들과 지속적으로 소통함. 화기애애한 분위기가 힘든 과제를 하는 중에 많은 도움이 되었다고 생각함. Problem : 조금 욕심을 부려서 프로젝트의 판을 키워버렸는데 이 부분도 처음부터 계획에 넣어서 진행했으면 좋았을 것 같다고 생각함. 도중에 갑자기 커진 판을 감당하려다가 발표 직전까지 눈물의 태..
-
<WIL> 2024년 3월 첫째 주 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 8. 21:19
2024년 3월 첫째 주 회고 팀 프로젝트가 본격적으로 시작되고 상당히 도전적인 과제를 선정하여서 데이터를 전처리하는데에 대부분의 시간을 할애하게 되었다. 파이썬으로 필요한 전처리를 거의 다 끝내버리고 난 뒤에 대시보드 작업에 들어가서 생각보다 빠르게 작성을 끝낼 수는 있었지만 다른 조의 대시보드 퀄리티를 보았을 땐 전처리에 들이는 공을 좀 줄이고 대시보드를 작업해야 했었던 것은 아닌가하는 생각이 든다. 근데 이번에 우리가 선택한 과제가 데이터의 정합성에 대한 대시보드를 만드는 것이라 게임이나 마케팅 관련한 현황 대시보드들에 비해서 보여줄 수 있는 차트의 다양성이 적어서 그랬던 것도 한 몫하는 것 같다. 정합성에 관한 대시보드도 충분히 경쟁력이 있는 포폴이 되겠지만 메인 포트폴리오로 가져가기는 좀 어려울..
-
<TIL> 2024-03-08내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 8. 21:10
오늘 진행한 일 팀 프로젝트 대시보드 디자인 추가 대시보드 제작을 위한 데이터 EDA https://jinhyunbae.tistory.com/174 2024-03-06 오늘 진행한 일 팀 프로젝트 트러블 슈팅 팀 프로젝트 관련 튜터링 진행 https://jinhyunbae.tistory.com/173 2024-03-05 오늘 진행한 일 팀 프로젝트 데이터 전처리 팀 프로젝트 문제 해결 SQL 코딩 테스트 http jinhyunbae.tistory.com 오늘은 이제 이 때까지 전처리 작업했던 데이터를 태블로에 적재해서 대시보드를 작성하였다. 우선 스케치 작업부터 진행을 했고 좀 더 효과적으로 보여줄 수 있는 레이아웃을 고민했다. 피피티를 이용해 간단하게 스케치를 해본 뒤 태블로 대시보드 작업을 시작하였다..
-
<TIL> 2024-03-06내일배움캠프(데이터 분석 부트캠프 1기) 2024. 3. 6. 23:46
오늘 진행한 일 팀 프로젝트 트러블 슈팅 팀 프로젝트 관련 튜터링 진행 https://jinhyunbae.tistory.com/173 2024-03-05 오늘 진행한 일 팀 프로젝트 데이터 전처리 팀 프로젝트 문제 해결 SQL 코딩 테스트 https://jinhyunbae.tistory.com/172 2024-03-04 오늘 진행한 일 팀 프로젝트 데이터 전처리 팀 프로젝트 문제 해결 오늘 한 jinhyunbae.tistory.com 오늘도 어제자에 진행하던 팀프로젝트 내용에 이어서 프로젝트를 진행하였다. 1. 하나의 세션 안에 두 유저가 있는지 여부 2. 한 유저가 두 도시에서 접속한 경우 3. 유저 ID가 없는 경우(Null) 4. Event가 발생하지 않았는데 구매 이력이 존재하는 경우 5. 30분..
-
<TIL> 2024-03-05내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 5. 22:09
오늘 진행한 일 팀 프로젝트 데이터 전처리 팀 프로젝트 문제 해결 SQL 코딩 테스트 https://jinhyunbae.tistory.com/172 2024-03-04 오늘 진행한 일 팀 프로젝트 데이터 전처리 팀 프로젝트 문제 해결 오늘 한 일은 지난 주 목요일에서 이어진다. https://jinhyunbae.tistory.com/170 2024-02-29 오늘 진행한 일 SQL 코딩 테스트 팀 프로젝트 발 jinhyunbae.tistory.com events 데이터의 정합성을 검증 1. 하나의 세션 안에 두 유저가 있는지 여부 2. 한 유저가 두 도시에서 접속한 경우 3. 유저 ID가 없는 경우(Null) 4. Event가 발생하지 않았는데 구매 이력이 존재하는 경우 5. 30분 이상 지속되는 이상 ..
-
<TIL> 2024-03-04내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 4. 23:28
오늘 진행한 일 팀 프로젝트 데이터 전처리 팀 프로젝트 문제 해결 오늘 한 일은 지난 주 목요일에서 이어진다. https://jinhyunbae.tistory.com/170 2024-02-29 오늘 진행한 일 SQL 코딩 테스트 팀 프로젝트 발제 팀 프로젝트 데이터 선정 및 간단한 EDA 오전에는 실전 팀프로젝트의 발제가 있었다. 팀 프로젝트에서 활용할 데이터가 위 사진처럼 5개 주어지 jinhyunbae.tistory.com events 데이터의 데이터의 정합성을 검증하는 것이 목표인데 확인해야할 것은 여러가지가 있었는데 구체적으로는 아래와 같다. 1. 하나의 세션 안에 두 유저가 있는지 여부 2. 한 유저가 두 도시에서 접속한 경우 3. 유저 ID가 없는 경우(Null) 4. Event가 발생하지 않..