전체 글
-
<WIL> 2024년 2월 첫 주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 2. 23:20
2024년 2월 첫주차 회고 벌써 내일배움캠프 학습 기간도 30%나 지났다. 이번 주는 고향으로 내려가는 이사를 준비하랴, 머신러닝 강의 11시간짜리 들으랴 개인과제도 미리 제출해놓느라고 아주 정신이 없었다. 자취방 계약이 부트캠프 도중에 하필 끝날게 뭐람 사실 지금도 이사 준비를 하던 중에 회고를 위해 블로그를 적고 있다. 그래도 이번주도 열심히 살았다라는 뿌듯한 기분을 느낀다. 다음주부터는 고향에서 이사 걱정없이 학습할 수 있으니 곧 있을 심화 프로젝트에 대한 대비도 할 겸해서 학습을 좀 빡세게 하면서 프로젝트 데이터를 찾으려고 한다.
-
<머신러닝> 단순선형회귀 (Linear Regression with Python)데이터 분석 관련 공부 2024. 2. 2. 21:56
https://jinhyunbae.tistory.com/144 단순선형회귀 - 2 (with Python) https://jinhyunbae.tistory.com/141 단순선형회귀 - 1 회귀분석(Regression)이란? 하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자, 두 변수간의 관계를 가장 jinhyunbae.tistory.com 지난 번에는 Python을 통해서 통계학 모델인 단순선형회귀를 구현해보았었는데 이번에는 sklearn에서 제공하는 선형회귀 모델 학습을 구현해본다. 통계 모델과 마찬가지로 최소자승법(OLS) 방식으로 선형회귀 모델을 구현한다. 사용한 데이터는 insurance.csv 데이터이다. https://www.kaggle.com/d..
-
<통계학> 단순선형회귀 - 2 (with Python)데이터 분석 관련 공부 2024. 1. 31. 22:13
https://jinhyunbae.tistory.com/141 단순선형회귀 - 1 회귀분석(Regression)이란? 하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자, 두 변수간의 관계를 가장 잘 기술하는 선을 찾는 분석 방법 단순 선형 jinhyunbae.tistory.com 단순선형회귀에 대한 Python코드 구현을 해보자 Python으로 통계분석을 하려면 statsmodels 라이브러리를 사용해야한다. 사용한 데이터는 kaggle의 kc house data이다. https://www.kaggle.com/datasets/shivachandel/kc-house-data kc_house_data www.kaggle.com import pandas as pd ..
-
<TIL> 2024-01-31내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 31. 21:50
오늘 진행한 일 머신러닝 심화 강의 수강 통계학 복습 및 블로그 작성 개인적인 사정으로 인해 요즘 학습에 집중하기가 좋은 환경은 아니었다. 오는 2월 4일에 원룸 방을 빼게되면서 청주에서 고향집으로 이사를 가야하기 때문에 이사 준비로 시간을 할애해야 했기 때문이다. 9 to 9 학습하는 쉬는 시간 사이사이에 짐을 챙기다 보니 시간을 내기가 조금 어려운 부분이 있었다. 오늘은 머신러닝 심화강의 수강으로 시간을 대부분 보냈다. 목표로는 머신러닝 심화를 오늘 수강을 끝내고 선형회귀에 코드에 관한 블로그도 작성을 해보려고 했는데 막상 강의를 따라가며 코드를 작성하면서 수강을 하다보니 미처 다 수강할 수 없었다. 그래도 비지도학습인 군집분석과 딥러닝 부분만 빼고는 다 수강을 마쳤다. 머신러닝 심화 강의에서 사용한..
-
<TIL> 2024-01-30내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 30. 23:37
오늘 진행한 일 머신러닝 기초 강의 수강 완료 머신러닝 심화 강의 수강 시작 통계학 강의 복습 및 블로그 작성 오늘은 머신러닝 기초 강의를 수강 완료했고 머신러닝 모델에서의 선형회귀와 로지스틱 회귀를 학습했다. 그리고 심화강의에 들어서서 EDA 및 전처리 부분을 학습했다. 머신러닝의 선형회귀와 통계학에서의 전통적 선형회귀는 사실상 같은 것이기 때문에 또 한 번 복습을 하는 느낌이었다. EDA 및 전처리의 경우 지난 주차에서 들었던 데이터 전처리 및 시각화와는 다르게 머신러닝 모델에 데이터를 넣기 위한 데이터의 형태를 보는 시각화, 그리고 머신러닝 모델에 넣기 위한 형태로 가공하는 데이터 전처리였다. 전처리의 경우에는 어떻게 하는지는 잘 알고 있는 부분이었는데, 현업에서 실제로 데이터를 다루는 튜터님의 전..
-
<통계학> 단순선형회귀 - 1데이터 분석 관련 공부 2024. 1. 30. 23:13
회귀분석(Regression)이란? 하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자, 두 변수간의 관계를 가장 잘 기술하는 선을 찾는 분석 방법 단순 선형 회귀란(Simple Linear Regression)? 독립변수가 하나인 경우 데이터의 특징을 가장 잘 설명하는 직선을 찾는 분석 회귀선(Regession Line) 두 변인의 직선적인 관계성을 기술하는 최적의 직선을 회귀선이라고 함 회귀선을 방정식으로 나타낸 식을 회귀식이라고 함 회귀식 y=β0+β1X+ε β0: 편향(Bias) 혹은 절편 β1 : 회귀 계수 혹은 기울기 ε : 잔차(Residual),..
-
<TIL> 2024-01-29내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 29. 22:03
오늘 진행한 일 데이터 개인과제 해설 강의 수강 머신러닝 기초 강의 수강 오전에는 지난 주에 출제되었던 데이터 전처리 및 시각화에 대한 개인과제 해설 강의가 있었다. 문제 자체 난이도는 전처리와 시각화에 대한 내용이라 간단했으나 그 문제 내용을 응용해서 했던 ANOVA 분석 코드를 보면서 공부가 되는 내용들이 많았다. 사용한 데이터는 Git public repository의 push 횟수로 공개 저장소에 대한 기록은 모두에게 공개되어 Bigquery의 데이터 베이스 형태로도 저장되어 있다고 한다. 그 중에 2019년도 2월 1일부터 2020년 1월 11일까지 약 1년 간의 일자별 push 횟수에 대한 데이터이다. 1번 문제는 log_date의 날짜변환에 관한 문제였다. ## 날짜를 변환 df.log_da..
-
<WIL> 2024년 1월 마지막 주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 26. 20:56
2024년 1월 마지막 주차 회고 개인사도 겹쳐서 정신없는 한주가 지나갔다. 대체로 지급해준 통계학 강의에 대한 복습과 데이터분석 전처리 과제로 한 주를 보냈다. 데이터분석 전처리 강의는 강의 내용 자체는 상당히 좋았다고 생각하지만 이미 아는 내용 밖에 없었고 통계학 강의는 깊은 통계학 이야기를 5시간만에 하려다보니 이해하기 힘들정도로 생략도 많고 속도도 빨랐다. 아이러니하게도 가장 불친절한 통계학 강의가 이 때까지 들었던 스파르타의 강의 중에 가장 파고들 여지가 많았다. 물론 그것은 내가 학부수준의 심리통계에 관한 지식이 있기 때문이라고 생각한다. 아마 처음 통계를 그 강의로 접한 사람들은 이게 도대체 무슨 소리인지 알아듣기가 힘들었을 것이다. 그래서 데이터 시각화 관련한 개인과제를 빠르게 끝내놓고 예..