-
<통계학> 단순선형회귀 - 1데이터 분석 관련 공부 2024. 1. 30. 23:13
회귀분석(Regression)이란?
하나 혹은 그 이상의 원인(독립변수)과 종속변수가 있을 때 독립변수를 이용하여 Y를 예측하고자,
두 변수간의 관계를 가장 잘 기술하는 선을 찾는 분석 방법
단순 선형 회귀란(Simple Linear Regression)?
독립변수가 하나인 경우 데이터의 특징을 가장 잘 설명하는 직선을 찾는 분석
회귀선(Regession Line)
두 변인의 직선적인 관계성을 기술하는 최적의 직선을 회귀선이라고 함
회귀선을 방정식으로 나타낸 식을 회귀식이라고 함
회귀식
$$ y = \beta_0 + \beta_1X + \varepsilon $$
$\beta_0$: 편향(Bias) 혹은 절편
$\beta_1$ : 회귀 계수 혹은 기울기
$\varepsilon$ : 잔차(Residual), 모델이 설명하지 못하는 Y의 변동성
회귀선의 도출
두 변인 간의 선형적인 관계를 기술하는 최적의 직선은 예측의 오차를 최소화하는 직선
잔차 $\varepsilon = y_i - \hat{y_i}$
잔차를 최소화하기 위해서는 분포의 모든 점들에 걸쳐서 예측 오차가 최소가 되어야함.
여기서 잔차의 합은 음수와 양수로 인해서 상쇄되는 문제가 있음.
따라서 잔차의 제곱의 합을 최소화하는 직선을 이용해야함
즉 회귀선은 잔차제곱합을 최소화하는 선이고 회귀분석은 잔차를 최소화하는 회귀계수와 편향 값을 찾는 것이다. 그리고 이 방법을 최소자승법(least square criterion)이라고 한다.
단순 선형 회귀분석의 기본 가정
1. 독립변수와 종속변수 둘 다 연속형 변수여야한다.
2. 잔차가 등분산성 가정을 만족해야한다.
3. 잔차가 정규성 가정을 만족해야한다.
단순 선형 회귀 분석의 유의도 검증
귀무가설 : 회귀 계수 $\beta_1$는 0이다.
대립가설 : 회귀 계수 $\beta_1$는 0이 아니다.
검정통계량
단순 선형 회귀에서는 자유도가 N-2인 t분포를 따른다.
회귀분석의 평가 지표(R²)
선형회귀를 평가하기 위해서는 결정 계수(Coefficient of determination) 개념을 활용한다.
결정 계수는 회귀 분석에서 모델이 실제 데이터를 얼마나 잘 예측하는지를 나타내는 지표이다.
설명력이라고도 부른다.
이 결정계수를 알기 위해서는 다음의 3가지 값을 알아야한다.
SST, SSR, SSE
SST(Total Sum of Square) : 종속변수 $y_{i}$와 그 평균값인 $\bar{y}$의 차이를 제곱하여 더한 값
SSR(Regression Sum of Square) : 모델 추정값 $\hat{y}$과 종속변수 평균값인 $\bar{y}$의 차이를 제곱하여 더한 값
SSE(Error Sum of Square) : 종속변수 $y_{i}$와 모델의 추정값 $\hat{y}$의 차이를 제곱하여 더한 값(잔차의 총합)
여기서 SSR은 회귀식으로 설명되는 부분, SSE는 회귀식으로 설명되지 않은 부분을 의미한다.
$$R^2 = \frac{SSR}{SST} = \frac{SSR}{SSR+SSE}$$
즉 결정계수는 전체 오류 중에서 모델로 설명이 가능한 오류의 범위를 뺀 비중의 값으로 1에 가까울수록 예측력이 좋다고 해석한다.
References
- https://walkingwithus.tistory.com/606
- https://datalabbit.tistory.com/119
- https://datalabbit.tistory.com/122
'데이터 분석 관련 공부' 카테고리의 다른 글
<머신러닝> 단순선형회귀 (Linear Regression with Python) (0) 2024.02.02 <통계학> 단순선형회귀 - 2 (with Python) (0) 2024.01.31 <통계학> 분산분석(ANOVA) - 4 (Two-way ANOVA with Python) (1) 2024.01.26 <통계학> 분산분석(ANOVA) - 3 (Two-way ANOVA) (2) 2024.01.26 <통계학> 분산분석(ANOVA) - 2 (One way ANOVA with Python) (1) 2024.01.25