-
<통계학> t검정(t-test) - 1데이터 분석 관련 공부 2024. 1. 23. 20:57
t검정이란
검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설검정이다.
어느 특정한 집단의 평균의 값을 추정하거나 두 집단의 평균 차이를 검정할 때 사용할 수 있다.
t분포란?
t분포는 표준 정규분포처럼 0을 중심으로한 종 형태의 대칭 분포인데, 그 꼬리가 표준정규분포보다 두껍다.
t분포는 자유도에 따라서 모습이 변하는데 표본의 크기가 많아질수록 점점 정규분포에 근사한다.
t분포는 정규분포인 모집단의 평균을 추정해야하는데 표본의 크기가 작고 모집단의 분산을 알 수 없을 때 이용한다.
위는 자유도와 유의수준에 따른 t값을 나타낸 t분포표이다. 단측 검정일 땐 유의수준과 자유도에 해당하는 값을 찾으면되고 양측 검정인 경우에는 유의 수준을 절반으로 나누어서 음수와 양수에 해당하는 t값을 찾으면된다.
t 검정의 기본 가정
1. 종속 변수가 연속형 변수여야하며 독립변수는 범주형 변수여야한다.
2. 독립 변수의 그룹은 독립성을 만족해야한다.
3. 정규성을 만족해야한다.
4. 등분산성을 만족해야한다.
t 검정의 종류.
One Sample t-test
일표본 t검정은 단일 모집단에서 연속형 변수의 평균값을 특정한 기준값과 비교하는 t검정
집단이 하나이므로 등분산성에 대한 검정은 필요없고 정규성 가정만 만족해주면 된다.
ex) 2015년 한국인 1일 평균 알코올 섭취량은 8.1g이다. 2018년에는 평균 섭취량이 달라졌는가?
귀무가설 : 2018년의 한국인 1일 평균 알코올 섭취량은 8.1g이다.
대립가설 : 2018년의 한국인 1일 평균 알코올 섭취량은 8.1g이 아니다.
Independent t-test
독립표본 t검정은 두 개의 독립된 집단의 모집단 평균을 비교할 때 사용한다.
그러므로 모집단에 대한 모수, 표본에 대한 값이 모두 두개씩 존재해 등분산성 가정이 필요하다.
ex) 형제가 있는 아이와 없는 아이의 정서지능은 차이가 날까?
귀무가설 : 형제가 있는 아이와 없는 아이의 정서지능 평균에는 차이가 없다.
대립가설 : 형제가 있는 아이와 없는 아이의 정서지능 평균에는 차이가 있을 것이다.
Paired t-test
대응표본 t검정은 단일 모집단에 대한 어떠한 처리를 가했을 때 처리 전후에 따른 평균차이를 비교할 때 사용한다.
따라서 표본 내의 개체들에 대해서 두 번의 측정을 하고 이미 같은 집단이기 때문에 등분산성은 만족된 것으로 본다.
ex) 고혈압 신약의 성능을 판단하기 위해 20명의 고혈압 환자에 대해서 수축기 혈압을 잰 다음 신약 복용 일주일 후
다시 혈압을 재었다. 신약 복용 전과 후 수축기 혈압이 다를까?
귀무가설 : 고혈압 환자의 신약 복용 전 후의 수축기 혈압 평균은 차이가 없다.
대립가설 : 고혈압 환자의 신약 복용 전 후의 수축기 혈압 평균은 차이가 있다.
비모수 검정
비모수 검정이란 모수에 대한 가정을 전제로 하지 않고 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을
계산하여 통계적으로 검정하는 분석 방법을 말한다.
분포에 대한 통계적 가정의 유의하지 않을 때 사용할 수 있다.
비모수 검정은 통계적 가정이 유의할 때의 모수 검정에 비해서 검정력이 약하다는 단점이 있다.
모수 검정과 비모수 검정에 대해서는 따로 블로그로 다루도록 하겠다.
Wilcoxon Rank-Sum test
윌콕슨 순위합 검정은 독립표본 t검정에 대응하는 비모수적인 검정이다.
데이터 값 자체를 사용하지 않고 그 순위를 데이터로 사용한다.
두 집단의 데이터를 섞어서 순위를 구한 후에 둘 중 한 집단의 순위합을
귀무가설이 사실일 경우의 이론적 순위합의 분포와 비교한다.
두 집단의 중위수(median)이 통계적으로 유의한 차이가 있는지 검정한다.
Wilcoxon Signed Rank test
윌콕슨 부호 순위 검정은 일표본 t검정이나 대응표본 t검정에서 정규성 가정이 만족되지 않았을 때
사용하는 비모수적인 검정이다.
자료의 순서를 사용하여 자료의 중위수가 0인지를 검정한다.
Xi - median에 대해서 양수 음수의 부호를 무시하고 절대값으로 순위를 구한 후 순위에 + - 부호를 부여한다.
그리고 부호를 부여한 순위를 더한 순위합을 귀무가설이 사실일 때의 순위합 분포와 비교하여 검정한다.
https://jinhyunbae.tistory.com/131
t 검정을 python으로 구현한 내용은 위 블로그 링크에 작성해두었다
- References
- https://1992jhlee.tistory.com/21
- https://math100.tistory.com/42
- https://blog.naver.com/definitice/221031927257
- 파이썬 한권으로 끝내기(2023), 시대 에듀
- 충북대학교 손호선 교수님 강의자료
- https://m.blog.naver.com/lpko222/221386889557
'데이터 분석 관련 공부' 카테고리의 다른 글
<통계학> 분산분석(ANOVA) -1 (One-way-ANOVA) (2) 2024.01.25 <통계학> t검정(t-test) - 2 (with Python) (0) 2024.01.24 <통계학> 통계적 가설 검정 -2 (신뢰수준, 1종 오류, 2종 오류) (0) 2024.01.23 <통계학> 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value) (1) 2024.01.22 <통계학> 큰 수의 법칙, 중심극한정리 (1) 2024.01.22 - References