-
<통계학> 큰 수의 법칙, 중심극한정리데이터 분석 관련 공부 2024. 1. 22. 21:56
큰 수의 법칙(대수의 법칙, Law of Large Numbers)이란
큰 수의 법칙은 기댓값에서 어떠한 확률을 가진 사건을 무한히 실행하면
그 사건의 결과는 평균에 수렴하는 현상을 말함
따라서 표본 집단의 크기가 커지면 커질수록 그 표본 평균이 모집단의 평균과 가까워진다
여기서 무한히 반복하는 것은 복원추출을 기반으로 하며 각 사건은 동일해야한다.
그렇다면 표본의 수가 무한히 크다면 이 표본들의 평균이 보여주는 확률 분포는 어떻게 될 것인가?
이를 다루는 것이 바로 중심 극한 정리이다.
중심극한정리(Central Limit Theorem, CLT)란
평균 μ , 표준편차 σ를 가지는 모집단 분포에서 iid 한 표본을 충분히 많이 추출한다면,
표본 평균은 정규분포에 근사하게 된다.
중심극한정리가 성립되는 조건은
1. 유한한 평균과 표준편차를 가지는 모집단의 분포
2. 모집단 분포에서 충분히 많은 표본의 추출(대략 n>= 30)
3. 각각의 표본들은 iid (independent and identically distribution, 독립항등분포)
그렇다면 여기서 독립항등분포란 무엇인가 말 그대로 상호 독립적이면서 같은 확률 분포를 가지면 iid하다고 정의한다.
독립적이라는 것은 각 사건이 다른 사건에 영향을 주기 않는 다는 것을 말한다.
모집단의 분포가 종모양의 분포를 가지지 않아도, 즉 정규분포를 따르지 않는다고 해도 위 정의는 성립한다.
물론 모집단의 분포가 정규분포를 따르는 경우 표본의 크기가 크지 않아도 중심 극한 정리는 성립한다.
다음은 중심극한정리가 중요한 이유이다.
중심극한정리는 표본의 평균을 통해 모집단의 평균과 표준편차를 추정할 수 있다. 즉 수집한 표본의 통계량을 이용해 모수를 추정할 수 있는 확률적 근거를 제시하는 것이다.
또한 중심극한정리로 인해서 우리는 샘플 수가 적당히 크다면 샘플이 정규분포로 나타내질 수 있기 때문에 정규분포와 관련된 이론들을 적용할 수 있게 된다.
References
- https://gguguk.github.io/posts/LLN/
- https://blog.naver.com/qbxlvnf11/221944120494
- https://velog.io/@iguv/%EC%A4%91%EC%8B%AC%EA%B7%B9%ED%95%9C%EC%A0%95%EB%A6%AC
'데이터 분석 관련 공부' 카테고리의 다른 글
<통계학> 통계적 가설 검정 -2 (신뢰수준, 1종 오류, 2종 오류) (0) 2024.01.23 <통계학> 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value) (1) 2024.01.22 <Python, SQL> pymysql 라이브러리(with Pandas DataFrame) (0) 2024.01.12 <SQL : MySQL> RECURSIVE(재귀 쿼리) (0) 2024.01.09 데이터 리터러시(Data Literacy) -2 (0) 2024.01.03