본문 바로가기
통계 & 데이터분석/Stats101

중심 극한 정리(Central Limit Theorem) feat. 주사위 굴리기

by 미니티스틱 2023. 5. 5.

중심 극한 정리(Central Limit Theorem)는 모집단 분포가 정규 분포가 아니더라도, 표본 크기가 충분히 크면 표본 평균의 분포가 정규 분포를 이룬다는 이론입니다. 표본 평균의 분포가 이루는 기댓값과 변동성을 표준오차 부분에서 알아보았는데요, 다시 간단히 정리하면 표본 평균집단의 평균은 모집단의 평균(μ)와 같고, 표본 표준편차는 모집단의 표준편차를 표본의 크기로 나눈 값과 같습니다.

 

2023.04.16 - [Stats101] - 표준오차, 표본오차와 신뢰구간

 

표준오차, 표본오차와 신뢰구간

앞서 표본 표준편차에는 왜 n-1을 할까? 에서 표본 집단과 표본 평균집단이 다르다는 점을 설명하였는데요, 표준편차와 표본오차가 헷갈릴 수 있을 것 같아 잠시 짚고 넘어가보겠습니다. (1)표준

minitistics.tistory.com

 

표본 평균의 분포

 

보통 샘플 수가 30 이상이면 중심 극한 정리를 따릅니다. 표준오차의 식을 보아도 알겠지만, 표본의 크기는 표본 평균의 표준편차에도 영향을 미칩니다. 표본의 수(n) 이 작으면 표준오차는 높아지고, 클수록 오차가 줄어들게 됩니다.

 

표준오차 시뮬레이션

 

 

중심 극한 정리의 예

주사위를 굴렸을 때 각 숫자가 나오는 확률 분포는 균일분포를 따를 것이라고 기대하게 됩니다. 이제 우리가 실제로 주사위를 1000번을 굴렸다고 가정하고, 그때 나오는 1부터 6가지의 분포를 R에서 시뮬레이션을 해보니 다음과 같은 분포를 나타냅니다. 1이 아주 많이 나왔군요!

 

 

주사위를 1000번 굴렸을 때의 분포

중심 극한 정리는 모집단이 어떤 분포이든 표본의 평균 집단이 정규분포를 따른 다는 이론이므로, 완벽한 균일분포는 아니지만 주사위를 1000번 굴려 나온 결과에서 표본추출을 시행해 볼 거예요. 이 중, 5개씩 뽑아서 각 평균을 구한 후 그에 대한 분포를 나타내어 보면 다음과 같습니다. 

 

표본의 수가 5일 때의 표본 평균 분포

 

어떤가요? 치우친 듯, 치우치지 않은 듯, 여전히 비대칭이 존재합니다. 중심 극한 정리는 표본의 수가 30 이상일 때 적용이 가능하므로, 이번에는 표본의 수를 30으로 정하고 시뮬레이션을 해봅니다.

 

 

표본의 수가 30일 때 표본 평균 분포

 

 표본 평균의 기댓값이 3.5를 중심으로 정규분포를 따르는 것 처럼 보이나요?

 

확인해 보기 위해, 모집단과 표본 평균 집단의 기댓값과 표준편차를 들여다보았습니다. 모집단의 기댓값은 3.5로 [(1+2+3+4+5+6)*(1/6) = 3.5 ] 우리가 1000번을 굴렸을 때, 비슷한 값(3.512)이 나온 것을 알 수 있어요. sample30의 평균을 보아도 3.5에 근사합니다(3.482). 모집단의 표준편차는 1.71이고, sampe30의 표준편차는 0.30인데요, 식에 대입하여 모집단의 표준편차를 표본의 크기로 나누면 0.31로 모집단의 표준편차에 아주 가깝습니다.

quick validation

 

 

반응형

댓글