-
<통계학> 큰 수의 법칙, 중심극한정리데이터 분석 관련 공부 2024. 1. 22. 21:56
큰 수의 법칙(대수의 법칙, Law of Large Numbers)이란
큰 수의 법칙은 기댓값에서 어떠한 확률을 가진 사건을 무한히 실행하면
그 사건의 결과는 평균에 수렴하는 현상을 말함
따라서 표본 집단의 크기가 커지면 커질수록 그 표본 평균이 모집단의 평균과 가까워진다
여기서 무한히 반복하는 것은 복원추출을 기반으로 하며 각 사건은 동일해야한다.
그렇다면 표본의 수가 무한히 크다면 이 표본들의 평균이 보여주는 확률 분포는 어떻게 될 것인가?
이를 다루는 것이 바로 중심 극한 정리이다.
중심극한정리(Central Limit Theorem, CLT)란
평균 μ , 표준편차 σ를 가지는 모집단 분포에서 iid 한 표본을 충분히 많이 추출한다면,
표본 평균은 정규분포에 근사하게 된다.
중심극한정리가 성립되는 조건은
1. 유한한 평균과 표준편차를 가지는 모집단의 분포
2. 모집단 분포에서 충분히 많은 표본의 추출(대략 n>= 30)
3. 각각의 표본들은 iid (independent and identically distribution, 독립항등분포)
그렇다면 여기서 독립항등분포란 무엇인가 말 그대로 상호 독립적이면서 같은 확률 분포를 가지면 iid하다고 정의한다.
독립적이라는 것은 각 사건이 다른 사건에 영향을 주기 않는 다는 것을 말한다.
모집단의 분포가 종모양의 분포를 가지지 않아도, 즉 정규분포를 따르지 않는다고 해도 위 정의는 성립한다.
물론 모집단의 분포가 정규분포를 따르는 경우 표본의 크기가 크지 않아도 중심 극한 정리는 성립한다.
다음은 중심극한정리가 중요한 이유이다.
중심극한정리는 표본의 평균을 통해 모집단의 평균과 표준편차를 추정할 수 있다. 즉 수집한 표본의 통계량을 이용해 모수를 추정할 수 있는 확률적 근거를 제시하는 것이다.
또한 중심극한정리로 인해서 우리는 샘플 수가 적당히 크다면 샘플이 정규분포로 나타내질 수 있기 때문에 정규분포와 관련된 이론들을 적용할 수 있게 된다.
References
- https://gguguk.github.io/posts/LLN/
- https://blog.naver.com/qbxlvnf11/221944120494
- https://velog.io/@iguv/%EC%A4%91%EC%8B%AC%EA%B7%B9%ED%95%9C%EC%A0%95%EB%A6%AC
중심극한정리
인공지능 통계에 대해 다루기 위해 먼저 베이즈 정리를 정리한 후 이번에는 중심극한정리를 제대로 정의를 알아보기로 했다... 아마 내일은 큰수의법칙 하고나서 t test, f test, p value 등을 정리하
velog.io
큰 수의 법칙(Law of Large Numbers)과 중심 극한 정리(Central Limit Theorem)
큰 수의 법칙(Low of Large Number)과 중심 극한 정리(Central Limit Theorem)는 통계에서 가장 중요...
blog.naver.com
큰수의 법칙(LLN, Law of Large Numbers)
표본의 크기가 커질수록 표본평균은 모평균에 근접해 갑니다.
gguguk.github.io
'데이터 분석 관련 공부' 카테고리의 다른 글
<통계학> 통계적 가설 검정 -2 (신뢰수준, 1종 오류, 2종 오류) (0) 2024.01.23 <통계학> 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value) (1) 2024.01.22 <Python, SQL> pymysql 라이브러리(with Pandas DataFrame) (0) 2024.01.12 <SQL : MySQL> RECURSIVE(재귀 쿼리) (0) 2024.01.09 데이터 리터러시(Data Literacy) -2 (0) 2024.01.03