데이터분석
-
<TIL> 2024-03-29내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 3. 29. 23:30
오늘 진행한 일 최종 프로젝트 데이터 EDA 최종 프로젝트 관련 튜터링 SQL 코드테스트 어제에 이어서 데이터 EDA를 진행했다. 어제는 click_stream에 있는 session에서 booking 이라는 event_name을 가진 행의 payment_status가 Success이거나 Failed인 경우 transaction 테이블에 해당하는 상품의 구매 혹은 취소 데이터가 있다는 것을 알아내었다. 그렇다면 booking이라는 event가 존재하지 않는 session은 없나? 라는 의문이 들었다. 왜냐면 click_stream 테이블은 customer_id를 가지지 않은 테이블이기 때문에 transaction 테이블과의 조인을 통해서만 고객 정보를 알아낼 수 있기 때문이다. 이를 확인함과 동시에 boo..
-
데이터 리터러시(Data Literacy) -1데이터 분석 관련 공부 2024. 1. 3. 15:00
(본 블로그는 스파르타의 데이터 리터러시 강의를 듣고 간략하게 정리한 것이다.) 데이터 리터러시(Data Literacy) 데이터 리터러시의 정의 데이터를 읽는 능력 데이터를 이해하는 능력 데이터를 비판적으로 분석하는 능력 결과를 의사소통에 활용할 수 있는 능력 데이터 리터러시란 데이터 수집과 원천을 이해하고 데이터에 대한 활용법을 이해하며, 데이터를 통한 핵심 지표를 이해하는 것이다. 데이터 분석가가 갖추어야할 중요한 소프트 스킬이다. 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어준다 데이터 분석 오류 데이터 리터러시 문제로 인해 데이터 분석에서 오류를 범하는 경우가 많다. 대표적인 오류 사례는 다음과 같다. 1. 심슨의 역설(Simpson's Paradox) 부분에서 성립한 대소 관계가 부분..
-
<WIL> 2023년 12월 4주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 29. 21:57
내일배움캠프 본 캠프 2023년 마지막 주인 12월 4주차도 끝이 났다. 이번 주는 SQL기초 및 심화 주차로 진행되었다. 스파르타에서 제공해준 엑셀보다 쉽고 빠른 SQL 강의를 다시 복습했고 SQLD를 취득하긴했지만 이론 복습과 Oracle 쿼리 학습을 위해 SQLD 강의도 수강을 했다. 그리고 지난 주와 동일하게 SQL 코드카타(코딩테스트) 문제를 하루에 3~4문제씩 매일 풀면서 문제 코드와 코드에 대한 해설을 블로그에 기록했다. SQL 코드카타를 60문제 이상 풀고나니 이제 남아있는 문제는 난이도가 조금 있는 문제들이라 한 문제 한 문제 풀 때 고민을 많이 하고있어서 시간은 오래 걸리지만 더 배워가는 것들이 있어서 좋았다. 그리고 대망의 연말, 새해 3일 연휴 직전인 금요일 오늘 SQL 개인과제가 ..
-
<TIL> 2023-12-21내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 21. 21:31
스파르타 코딩클럽 내일배움캠프 4일차 오늘 한 일 SQL 코드카타 문제 7개! SQL 코딩테스트 블로그 작성 팀 프로젝트 발표 자료(노션) 수정 및 발표 스크립트 관련 회의 배운 것 SQL 문제를 풀 때 회원 수라고 하면 ROW수라는 뜻이 아니기 때문에 USER_ID에 DISTINCT를 걸어주어야한다.이거랑 유사하게 문제가 나왔을 때 낚이지 말아야겠다 팀 프로젝트 유튜브 발표자료 https://www.youtube.com/watch?v=zhLTXsOgpcw 발표는 팀원 분이 수고해주셨다! 감사합니다! 아래는 내가 오늘 풀었던 문제에서 DISTINCT를 쓰지 않아 어디가 틀렸는지 1시간을 고민했던 코드였다. SELECT YEAR, MONTH, GENDER, COUNT(DISTINCT USER_ID) AS ..
-
<TIL> 2023-12-20내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 20. 22:37
스파르타 코딩클럽 내일배움캠프 3일차 오늘 한 일 SQL 코드카타 SQL 코딩테스트 블로그 작성 팀 프로젝트 발표 자료 관련 회의 배운 것 SQL : CONCAT_WS, CONCAT HAVING절 활용 팀 프로젝트 노션 발표자료 https://www.notion.so/B07-d6fd457ccb5d416cb9ceba8e14a75d31 (B07) 학습 플랫폼 이용자 리텐션 분석 | Built with Notion I. 서론 dorian-bellflower-bb8.notion.site 오늘 풀었던 코테 중에 가장 어려웠던 문제 다른 부분은 다 괜찮았는데 HAVING절을 쓰는게 갑자기 기억이 안나서 N건 이상의 로우가 조회되는 ID의 ~ 를 조회하라는 문제들이 대부분 막혔었다. 곰곰히 한시간 가까이를 고민했는데..
-
<TIL> 2023-12-19내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 19. 22:06
스파르타 코딩클럽 내일배움캠프 2일차 오늘 한 일 SQL 코드카타(프로그래머스 SQL 코딩테스트 문제 풀기) 밀린 SQL 코딩테스트 블로그 기록하기 진행 팀 프로젝트 데이터 전처리 및 시각화 코드 작성 - 사용한 데이터 어제 배웠던 RFM 고객 세분화 개념을 이용해서 - Recency : 얼마나 최근에 구매했는가 - Frequency : 얼마나 자주 구매했는가 - Monetary : 얼마나 많은 금액을 지출했는가 R: 사용자가 마지막으로 로그인한 시간(일) (int) F : 월간 활동적인 학습 일수(int) M : 구독 유형(베이직, 프리미엄 이진 데이터) 이렇게 정의를 하였다. M의 경우엔 애초에 Basic과 Premium 2개의 집단으로 이루어진 이진 데이터였고 R과 F의 경우 중앙값을 기준으로 높고..
-
<TIL> 2023-12-14내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 14. 23:52
내일배움캠프 사전학습캠프 사실상 금요일은 일정이 있어서 사전캠프를 빠져야하기 때문에 사실상 오늘이 마지막 날 스파르타코딩클럽 / 데이터 분석 종합반 4,5주차 수강 인터넷에서 제공하는 코딩 강의들은 강의 초중반엔 콧노래 부르며 난나나 이런게 있어요 하면서 가르쳐주다가 마지막 즈음되면 갑자기 어려운 내용 어려운 코드 와다다 쏟아내면서 마무리하는 경향이 있는 것 같다. 응용 파트가 어려운건 맞지만 왜 항상 이런 패턴일까 ㅋㅋ 배운 것 - 코호트 분석(Cohort Analysis) - 리텐션 분석(Retention Analysis) 코호트 분석 코호트란 동질한 집단을 의미함 코호트 분석이란 동일한 기간 동안 공통된 특성이나 경험을 가진 사람들을 모아서 분석하는 것 리텐션 분석 리텐션(유지율)은 제품의 첫 번째..
-
<TIL> 2023-12-13내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2023. 12. 13. 22:15
내일배움캠프 사전학습캠프도 이제 이틀 남았다. 스파르타코딩클럽 / 데이터 분석 종합반 2,3주차 수강 배운 것 - pandas, matplotlib 활용하는 것(복습) - folium 라이브러리 데이터분석의 기초에 대해서 복습하는 느낌으로 마음편하게 2~3주차를 수강하다가 지도 시각화 라이브러리를 배울 수 있었다. folium 라이브러리 : 지도 위에 interactive하게 표현해주는 파이썬의 지도 시각화 라이브러리 장소의 위경도에 마커를 표시하는 것을 통해서 지도에 시각화를 가능하게 해준다 이런건 태블로로나 하는 줄 알았는데, 역시 나는 우물 안 개구리였다. 나중에 유용하게 써먹을 일이 있을 지도