우리가 앞서 t분포와 카이제곱 분포에 대해 정리하면서 자유도라는 개념을 접했는데요. 자유도(Degree of Freedom)는 말 그대로, 자유로운 정도를 나타냅니다. 도대체 데이터에서 자유로운 정도라니, 무슨 뜻일까요?
2023.04.19 - [분류 전체보기] - t-분포(t-Distribution)
2023.04.30 - [Stats101] - 카이제곱 분포(Chi-square distribution)
통계의 궁극적인 목적은 표본을 이용하여 모집단을 추정하는 과정입니다. 이 때 사용될 수 있는 독립적인 정보(데이터 포인트)의 수를 자유도라 할 수 있습니다. 표본 크기에서 제한된 수를 뺀 값이 자유의 정도, 자유도를 나타내기 때문에, 표본이 클수록 자유도도 높아지겠죠. 이 때 표본의 모든값이 자유롭게 변경되는 것이 아니기 때문에, 자유도는 표본크기보다 항상 작습니다.
t-검정의 종류와 방법의 단일표본 t검정의 예로 사용하였던 학생들의 시험점수로 자유도를 설명해보겠습니다. 이 때 표본의 수가 10이고, 표본 평균이 311이었죠.
표본 = [270, 290, 305, 320, 280, 295, 380, 320, 280, 370]
이 때, 우리가 평균이 311인 또다른 표본[표본B]을 만든다고 가정해봅니다. Xi는 각 표본값입니다.
(1) 표본 B = [x1, x2, x3, x4, x5, x6, x7, x8, x9, x10 ]
(2) 표본 B = [280, x2, x3, x4, x5, x6, x7, x8, x9, x10]
(3) 표본 B = [280, 250, 220, 370, 130, 140, 200, 300, 100, x10]
(1) 표본 B에는 처음 x1자리부터 어떤 수든 들어갈 수 있게 됩니다.
(2) 자, 이제 X1에 점수 280이 왔어요. 그리고는 쭉쭉 채워나갑니다. 평균 311이 되기 위해서는 아직 어떤 수도 들어갈 수 있기 때문이죠. 그런데 이와 같은 내 마음대로 숫자를 가져올 수 있는 자유가 언제 멈춰질까요?
(3) 바로 이때에요. 표본 10 중에 9까지 다 찼을 때, 평균 311을 만들기 위해서는 오직 하나의 값만 존재하니까요. 계산해보면:
sum(280, 250, 220, 370, 130, 140, 200, 300, 100, x10)/10 = 311이 되는 값. 즉, 311- 199 = 112라는 값이어야만 합니다. 이 마지막 한 관찰값은 빼박 이거여야만 하여, 제한된 값이라고 할 수 있습니다.
이와같이 표본의 평균이 정해짐으로서 표본의 수 -1 만큼만 각 데이터가 자유롭게 움직일 수 있습니다. 그래서 이 단일표본 t검정을 시행할 때 자유도를 10-1=9 로 두고, t-score를 구하기 위한 t-table 을 사용한 것입니다.
t분포와 카이제곱 분포에서 보았듯이, 자유도는 분포의 모양을 변경하여 임계값(Critical Value)에 영향을 줍니다.
'통계 & 데이터분석 > Stats101' 카테고리의 다른 글
균일분포(Uniform Distribution) (0) | 2023.05.03 |
---|---|
이항분포(Binomial Distribution) (0) | 2023.05.02 |
카이제곱 분포(Chi-square distribution) (0) | 2023.04.30 |
카이제곱 독립성 검정 - Test of Independence (0) | 2023.04.29 |
카이제곱 적합도 검정(feat. m&m) - Goodness of fit test (0) | 2023.04.28 |
댓글