데이터 분석 관련 공부
-
<머신러닝> 단순선형회귀 (Linear Regression with Python)데이터 분석 관련 공부 2024. 2. 2. 21:56
https://jinhyunbae.tistory.com/144 단순선형회귀 - 2 (with Python) https://jinhyunbae.tistory.com/141 단순선형회귀 - 1 회귀분석(Regression)이란? 하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자, 두 변수간의 관계를 가장 jinhyunbae.tistory.com 지난 번에는 Python을 통해서 통계학 모델인 단순선형회귀를 구현해보았었는데 이번에는 sklearn에서 제공하는 선형회귀 모델 학습을 구현해본다. 통계 모델과 마찬가지로 최소자승법(OLS) 방식으로 선형회귀 모델을 구현한다. 사용한 데이터는 insurance.csv 데이터이다. https://www.kaggle.com/d..
-
<통계학> 단순선형회귀 - 2 (with Python)데이터 분석 관련 공부 2024. 1. 31. 22:13
https://jinhyunbae.tistory.com/141 단순선형회귀 - 1 회귀분석(Regression)이란? 하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자, 두 변수간의 관계를 가장 잘 기술하는 선을 찾는 분석 방법 단순 선형 jinhyunbae.tistory.com 단순선형회귀에 대한 Python코드 구현을 해보자 Python으로 통계분석을 하려면 statsmodels 라이브러리를 사용해야한다. 사용한 데이터는 kaggle의 kc house data이다. https://www.kaggle.com/datasets/shivachandel/kc-house-data kc_house_data www.kaggle.com import pandas as pd ..
-
<통계학> 단순선형회귀 - 1데이터 분석 관련 공부 2024. 1. 30. 23:13
회귀분석(Regression)이란? 하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자, 두 변수간의 관계를 가장 잘 기술하는 선을 찾는 분석 방법 단순 선형 회귀란(Simple Linear Regression)? 독립변수가 하나인 경우 데이터의 특징을 가장 잘 설명하는 직선을 찾는 분석 회귀선(Regession Line) 두 변인의 직선적인 관계성을 기술하는 최적의 직선을 회귀선이라고 함 회귀선을 방정식으로 나타낸 식을 회귀식이라고 함 회귀식 $$ y = \beta_0 + \beta_1X + \varepsilon $$ $\beta_0$: 편향(Bias) 혹은 절편 $\beta_1$ : 회귀 계수 혹은 기울기 $\varepsilon$ : 잔차(Residual),..
-
<통계학> 분산분석(ANOVA) - 4 (Two-way ANOVA with Python)데이터 분석 관련 공부 2024. 1. 26. 15:44
https://jinhyunbae.tistory.com/136 분산분석(ANOVA) - 3 (Two-way ANOVA) 지난 번 작성한 일원배치 분산분석에 이어서 이원배치 분산분석에 대해서 작성해보려고한다. https://jinhyunbae.tistory.com/133 분산분석(ANOVA) -1 (One-way-ANOVA) 분산분석(ANOVA) t 검정이 두 집단간의 평균 jinhyunbae.tistory.com 이원배치 분산분석을 python scipy 라이브러리로 구현해보자 데이터 불러오기 우선 사용할 라이브러리를 import하고 데이터를 불러온다. 사용한 데이터는 R 내장데이터인 mtcars를 이용했다. mtcars = pd.read_csv('../data/mtcars.csv') display(mt..
-
<통계학> 분산분석(ANOVA) - 3 (Two-way ANOVA)데이터 분석 관련 공부 2024. 1. 26. 14:12
지난 번 작성한 일원배치 분산분석에 이어서 이원배치 분산분석에 대해서 작성해보려고한다. https://jinhyunbae.tistory.com/133 분산분석(ANOVA) -1 (One-way-ANOVA) 분산분석(ANOVA) t 검정이 두 집단간의 평균차이를 비교하는데 쓰이는 통계분석 방법이라면 두 개 이상의 다수 집단 간 평균을 비교하는 통계적 방법은 무엇일까? 그게 바로 분산분석이다. 참고로 jinhyunbae.tistory.com 이원배치 분산분석(Two-way ANOVA) 분산 분석 중에서 Two-way ANOVA라는 것은 한국어로는 이원분산분석 혹은 이원배치 분산분석이라고 하는데 독립변수가 2개일 때 집단 간 종속변수의 차이를 검증하기 위해서 사용되는 방법이다. 집단 간 평균차이를 비교한다는 ..
-
<통계학> 분산분석(ANOVA) - 2 (One way ANOVA with Python)데이터 분석 관련 공부 2024. 1. 25. 17:55
https://jinhyunbae.tistory.com/133 분산분석(ANOVA) -1 (One-way-ANOVA) 분산분석(ANOVA) t 검정이 두 집단간의 평균차이를 비교하는데 쓰이는 통계분석 방법이라면 두 개 이상의 다수 집단 간 평균을 비교하는 통계적 방법은 무엇일까? 그게 바로 분산분석이다. 참고로 jinhyunbae.tistory.com 일원배치 분산분석을 python scipy 라이브러리로 구현해보자 데이터 불러오기 우선 사용할 라이브러리를 import하고 데이터를 불러온다. 데이터는 가장 흔한 범주별 데이터를 담고 있는 붓꽃(iris)데이터를 이용하였다. iris = pd.read_csv('../data/iris.csv') display(iris.head(10)) 일반적으로는 머신러닝 ..
-
<통계학> 분산분석(ANOVA) -1 (One-way-ANOVA)데이터 분석 관련 공부 2024. 1. 25. 15:59
분산분석(ANOVA) t 검정이 두 집단간의 평균차이를 비교하는데 쓰이는 통계분석 방법이라면 두 개 이상의 다수 집단 간 평균을 비교하는 통계적 방법은 무엇일까? 그게 바로 분산분석이다. 참고로 ANOVA는 ANalysis Of VAriance 즉 영어로 분산분석을 줄인 말이다. 일원배치 분산분석(One-way ANOVA) 분산 분석 중에서 One-way ANOVA라는 것은 한국어로는 일변량 분산분석 혹은 일원배치 분산분석이라고 하는데 독립변수가 3개 이상인 집단일 때 집단 간 종속변수의 차이를 검증하기 위해서 사용되는 방법이다. 집단 간 평균차이를 비교한다는 점에서 t검정과 유사하다고 생각할 수 있다. 그렇다면 집단이 3개일 때 t-test를 3번 하면 모든 집단을 비교 가능한 게 아닌가? 상당히 곤란..
-
<통계학> t검정(t-test) - 2 (with Python)데이터 분석 관련 공부 2024. 1. 24. 21:40
https://jinhyunbae.tistory.com/129 t검정(t-test) - 1 t검정이란 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설검정이다. 어느 특정한 집단의 평균의 값을 추정하거나 두 집단의 평균 차이를 검정할 때 사용할 수 있다. t분포란? t분포 jinhyunbae.tistory.com 위 링크에서 설명한 t검정을 python의 scipy라이브러리로 구현해보자 데이터는 R에서 제공하는 cat 데이터를 csv 파일로 저장한 것이다. https://github.com/vincentarelbundock/Rdatasets/blob/master/csv/MASS/cats.csv 데이터 불러오기 우선 사용할 라이브러리를 import하고 데이터를 불러온다. import numpy a..