본문 바로가기
데이터분석-통계/통계학의 본질 이론

중심극한 정리 (Central Limit Theorem) : 정의 및 실험 & 용도

by TayLee 2024. 11. 3.
반응형

글의 목차

  1. 중심 극한 정리란 무엇인가?
  2. 중심 극한 정리에 대한 실험 (Python으로 실행)
  3. 중심 극한 정리의 의미 (사용 용도)

 

중심 극한 정리란? 

 중심극한정리는 표본의 크기가 충분히 클 경우, 모집단의 분포가 무엇이든 간에 표본 평균분포정규분포에 근접하게 된다는 이론이다.

 

fig1. sample mean distribution
그림1. sample mean distribution (n이 커질수록)

 

 그림 1은 어떤(임의의) 분포에서 X 데이터를 추출하더라도 표본의 크기 n이 커질수록 표본 평균의 분포는 정규분포에 가까워진다는 것을 보여주고 있다. 이 표본 평균의 분포는 아래와 같이 표현된다.

수식1. 표본 평균의 분포

 

샘플링 과정부터 세세하게 보도록 하자.

fig2. 모집단으로부터 샘플링
그림2. 모집단으로부터 샘플링

 

 모집단으로부터 샘플링한 횟수를 M이라 하고, 한 번에 샘플링한 크기(표본 개수)를 N이라고 해보자.

샘플링 횟수를 500으로 고정하고, 샘플링 크기를 N=1 부터 N=30, 300, 3000까지 늘려가며 다음의 5가지 분포에서 샘플링을 진행 했다.

 

실험한 분포 5가지:

  1. 균일(Uniform) 분포,
  2. 가우시안(Gaussian) 분포,
  3. F 분포,
  4. 카이제곱(chi-squared) 분포,
  5. 베르누이(Bernoulli) 분포에 대해

 

Central Limit Theorem 실험 진행

fig3
그림3. M이 500일때 N이 1일때

 그림 3에서 N=1일 때 균일 분포, F 분포, 베르누이 분포는 가우시안 분포의 형태와 크게 다름을 확인할 수 있었다. 반면, 카이제곱 분포는 가우시안 분포와 상당히 유사하다는 것을 알 수 있었다. (당연히 가우시안 분포는 정규분포를 따라야 한다.)

 

fig4
그림4. N=30 (M=500)

 그림 4에서 N=30일 때 균일 분포, F 분포, 베르누이 분포는 가우시안 분포 또한 서서히 가우시안 분포와 점차 비슷한 형태로 변하고 있음을 확인할 수 있다.
 
* 중심 극한 정리에서 샘플링 크기 30의 의미
 표본의 크기가 30 이상일 때, 어떤 모양의 분포에서 샘플링하더라도 그 표본 평균은 정규분포에 수렴하는 경향을 보인다. 

 

fig5
그림5. N=300 (M=500)
fig6
그림6. N=3000 (M=500)

 

위의 그림 5와 그림 6을 살펴보면, 샘플링 크기가 더 커짐에 따라 더욱 정규분포에 정교하게 맞아가고 있음을 확인 할 수 있었다.

 

실험관련 py파일은 아래 첨부하겠습니다. (필요하시면 그냥 돌려보시면 됩니다) 또는 git-hub에 올려 놓았습니다.

Central Limit Theorem.py
0.00MB

 

그래서, 중심값 극한 정리가 어디에 어떻게 사용될 수 있는 것인가?
(가장 궁금하면서도 중요한 부분중에 하나 일 것이다)

fig7 CLT (Central Limit Theorem)
그림7. 중심값 극한 정리의 용도

 

 통계학에서 중요한 목표 중 하나는 특정 집단의 대표값인 평균을 추정하는 것이다. 이는 점추정이든 구간 추정이든, 평균에 대한 이해와 탐구가 핵심이다. 이러한 점에서 중심극한정리는 매우 중요하다. 실제로 우리가 조사하는 관심 대상의 분포 형태는 알 수 없는 경우가 대부분이다. 그러나 중심극한정리는 표본 크기 이 커질수록 표본 평균의 분포가 정규분포에 가까워진다는 사실을 알려주며, 이는 분석 과정에서 큰 희망을 우리에게 준다. N을 충분히 키운다면 표본 평균이 정규분포를 따르게 되고, 이를 통해 모수 추정 또는 신뢰 구간 설정이 가능해진다. 다만, 모집단의 표준편차 를 모를 경우, 우리는 정규분포 대신 t분포를 사용하여 이러한 추정을 수행하게 된다.

 

fig8. t & Z distribution
그림8. t분포와 z(정규)분포 사이의 관계

 

 t-분포는 표본 표준편차를 기반으로 표본 오차를 표현하며, 이때 표본의 정보만으로 그래프를 그릴 수 있다. 위 그림 8에서 볼 수 있듯이, t-분포의 자유도(df)가 증가함에 따라 분포는 점차 Z-분포(정규분포)에 가까워진다. 예를 들어, df=30(약 N=31)일 때 Z-분포와 거의 유사해지는 것을 확인할 수 있다. 이런 이유로, 평균 검정에서 인 경우에는 t-분포나 정규분포를 사용해도 무방하다. 반면, 표본 크기가 30 미만인 경우 비모수 통계 검정을 사용하는 것이 좋다.

 정리하자면, 어떤 분포에서 샘플링하더라도 표본 크기가 30 이상이고 일정한 샘플링 횟수가 보장된다면, 표본 평균의 분포는 정규분포에 가까워진다. 이때 모집단의 표준편차를 알 수 없기 때문에, t-분포를 이용해 신뢰 구간을 통해 구간 추정을 할 수 있다. 

 

결론 (맺음말)

 N이 30 이상일 때, 표본 평균의 분포는 중심값 극한 정리에 의해 정규분포에 가까워지지만, 실제 Z분포를 알 수 없기 때문에 t-분포를 이용하게 되다. N이 30 이상일 경우 t-분포도 정규분포에 가까워지므로, t-분포를 사용해도 큰 문제가 없다. 즉, 표본 크기가 작을 때는 정규성 가정이 중요하지만, 표본 크기가 커질수록 중심극한정리에 따라 표본 평균의 분포는 정규분포에 가까워지므로 t-분포를 이용해도 큰 차이가 없게 된다.

 

참고 문헌

1. 통계학 기본(입문) 수업 - 자유아카데미 (전공서적)

반응형