본문 바로가기
통계 & 데이터분석/Stats101

자유도(Degrees of freedom)

by 미니티스틱 2023. 5. 1.

우리가 앞서 t분포와 카이제곱 분포에 대해 정리하면서 자유도라는 개념을 접했는데요. 자유도(Degree of Freedom)는 말 그대로, 자유로운 정도를 나타냅니다. 도대체 데이터에서 자유로운 정도라니, 무슨 뜻일까요?

 

2023.04.19 - [분류 전체보기] - t-분포(t-Distribution)

 

t-분포(t-Distribution)

t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을

minitistics.tistory.com

2023.04.30 - [Stats101] - 카이제곱 분포(Chi-square distribution)

 

카이제곱 분포(Chi-square distribution)

카이제곱 분포의 모양은 자유도(k)에 의해 결정됩니다. 카이제곱 분포를 따르는 실제 생활의 데이터는 잘 없다고 알려져있는데요, 카이제곱 적합도 검정과 카이제곱 독립 검정을 포함한 가설 검

minitistics.tistory.com

 

 

통계의 궁극적인 목적은 표본을 이용하여 모집단을 추정하는 과정입니다. 이 때 사용될 수 있는 독립적인 정보(데이터 포인트)의 수를 자유도라 할 수 있습니다. 표본 크기에서 제한된 수를 뺀 값이 자유의 정도, 자유도를 나타내기 때문에, 표본이 클수록 자유도도 높아지겠죠. 이 때 표본의 모든값이 자유롭게 변경되는 것이 아니기 때문에, 자유도는 표본크기보다 항상 작습니다.

 

t-검정의 종류와 방법의 단일표본 t검정의 예로 사용하였던 학생들의 시험점수로 자유도를 설명해보겠습니다. 이 때 표본의 수가 10이고, 표본 평균이 311이었죠.

 

표본 = [270, 290, 305, 320, 280, 295, 380, 320, 280, 370]

이 때, 우리가 평균이 311인 또다른 표본[표본B]을 만든다고 가정해봅니다. Xi는 각 표본값입니다.

(1) 표본 B = [x1, x2, x3, x4, x5, x6, x7, x8, x9, x10 ]
(2) 표본 B = [280, x2, x3, x4, x5, x6, x7, x8, x9, x10]
(3) 표본 B = [280, 250, 220, 370, 130, 140, 200, 300, 100, x10]

 

 

(1) 표본 B에는 처음 x1자리부터 어떤 수든 들어갈 수 있게 됩니다. 

(2) 자, 이제 X1에 점수 280이 왔어요. 그리고는 쭉쭉 채워나갑니다. 평균 311이 되기 위해서는 아직 어떤 수도 들어갈 수 있기 때문이죠. 그런데 이와 같은 내 마음대로 숫자를 가져올 수 있는 자유가 언제 멈춰질까요?

(3) 바로 이때에요. 표본 10 중에 9까지 다 찼을 때, 평균 311을 만들기 위해서는 오직 하나의 값만 존재하니까요. 계산해보면:

sum(280, 250, 220, 370, 130, 140, 200, 300, 100, x10)/10 = 311이 되는 값. 즉, 311- 199 = 112라는 값이어야만 합니다. 이 마지막 한 관찰값은 빼박 이거여야만 하여, 제한된 값이라고 할 수 있습니다.

 

이와같이 표본의 평균이 정해짐으로서 표본의 수 -1 만큼만 각 데이터가 자유롭게 움직일 수 있습니다. 그래서 이 단일표본 t검정을 시행할 때 자유도를 10-1=9 로 두고, t-score를 구하기 위한 t-table 을 사용한 것입니다.

 

t분포와 카이제곱 분포에서 보았듯이, 자유도는 분포의 모양을 변경하여 임계값(Critical Value)에 영향을 줍니다.

 

 

 

반응형

댓글