카이제곱 분포의 모양은 자유도(k)에 의해 결정됩니다. 카이제곱 분포를 따르는 실제 생활의 데이터는 잘 없다고 알려져있는데요, 카이제곱 적합도 검정과 카이제곱 독립 검정을 포함한 가설 검정에 널리 사용되고 있습니다. 즉, 카이제곱 분포의 주요 목적은 실제 분포를 설명하는데에 있다기 보다는, 데이터가 특정 분포를 따르는지, 혹은 데이터의 두 변수가 서로 독립적인지 종속적인지 알아보는 가설 검정에 사용하는 분포입니다.
2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test
2023.04.29 - [Stats101] - 카이제곱 독립성 검정 - Test of Independence
아래 그래프를 보면, 자유도(k)가 2보다 크면 카이제곱 분포는 종 모양 입니다. 이때, 분포는 비대칭으로 right-skewed임을 알 수 있습니다. 즉, 오른쪽 꼬리가 긴 분포를 나타냅니다. 카이제곱 분포 역시 t-분포와 마찬가지로, 자유도가 높아질수록 정규 분포에 가까워집니다.
카이제곱 분포 vs 표준 정규 분포
카이 제곱 분포와 정규분포는 밀접한 관계가 있는데요, 때문에 가설 검정에도 매우 유용합니다. 예를 들어, 표준 정규 분포에서 표본을 추출한다고 가정한다면, 그 하나의 표본에서 추출한 모든 값을 제곱하면 자유도가 1인 카이제곱 분포가 됩니다. 두 개의 표본을 추출 후, 서로 상응하는 한 쌍의 값을 제곱하여 함께 더하면 자유도가 2인 카이제곱 분포가 되고요. 그러므로 카이제곱 분포는 언제나 양수(positive)입니다.
카이제곱 분포는 정규분포를 따르는 모집단의 분산을 검정하는데 사용할 수 있습니다.
카이제곱 분포 vs F 분포
앞서 언급하였지만, 카이제곱 분포는 지정된 값에 대한 모집단의 분산검정, 적합도 검정과 독립 검정에 사용됩니다. 주로 범주형 변수(m&m 초콜릿 색깔) 간 통계적 차이가 있는지 여부를 확인하는 데 사용하는 반면, F검정은 연속형 변수(키, 몸무게) 간의 통계적 차이가 있는지 여부를 알고 싶을 때 사용됩니다. F검정은 서로 다른 두 모집단의 분산이 동등한지(등분산성), 혹은 세 개 이상의 모집단 평균이 같은지 여부에 대한 분산분석(ANOVA)에서 사용됩니다. 정리하면:
카이제곱 검정:
- 지정된 값에 대한 모집단 분산 검정
- 카이제곱 적합도 검정(Goodness-of-fit): 특정 분포를 따르는지에 대한 적합도를 검정
- 카이제곱 독립 검정(Test of Independence): 두 범주형 변수의 독립성 검정
F검정:
- 서로 다른 모집단의 분산의 동등성을 검정(등분산성)
- ANOVA
이와 같이 서로 다른 검정을 시행하지만 카이제곱 분포와 F분포 역시 밀접하게 연관되어 있는데요, F-분포는 각각 자유도가 m과 n인 두 카이제곱 분포의 비율로 나타낼 수 있습니다.
여기서 m과 n은 각 카이제곱 분포의 자유도 입니다.
*카이제곱 분포에서 자유도를 나눈 값과 분산의 관계가 궁금하신 분을 위해.
이 질문에 대답하기 위해서는 크기 n의 표본이 분산 𝜎2인 정규 분포에서 추출될 때 (𝑛−1)𝑠2/𝜎2는 자유도가 n-1인 카이제곱 분포를 갖는다는 것을 이해할 수 있으면 되는데요.
먼저 편의를 위해, 우리가 모집단 평균을 알고 그것에 대한 분산을 추정했다면(표본 평균에 대한 것이 아니라), 식은 다음과 같습니다.
그리고, 카이제곱이 표준 정규분포의 제곱 분포라는 것을 알고 있으므로
그런데 자유도는 주로 n-1 입니다. 자, 우리가 여기서 표본 집단 대신, 모집단 평균을 알고 있다는 가정으 이용했지만 실제 통계 검정에서 모평균을 알고 있는 경우는 드뭅니다. 때문에, 표본 집단을 통해 모집단을 추정하게 될텐데요, 모집단 평균 대신 표본의 평균을 사용하면($𝑍_{i}=(𝑋_{𝑖}−\bar{𝑋})/\sigma$) 편차의 제곱합을 실제보다 더 작게 만드는 경향이 있습니다. 때문에 과소평가된 편향된 추정치를 피하기 위해 n대신 n-1을 사용하게 됩니다. 표본 표준편차의 n-1의 예시와 증명은, [분산과 표준편차], [표본 표준편차]에는 왜 n-1을할까에서 확인할 수 있습니다.
이상으로 정규분포, 카이제곱 분포, 그리고 F분포가 서로 연관이 있다는 사실을 알아보았습니다.
'통계 & 데이터분석 > Stats101' 카테고리의 다른 글
이항분포(Binomial Distribution) (0) | 2023.05.02 |
---|---|
자유도(Degrees of freedom) (0) | 2023.05.01 |
카이제곱 독립성 검정 - Test of Independence (0) | 2023.04.29 |
카이제곱 적합도 검정(feat. m&m) - Goodness of fit test (0) | 2023.04.28 |
AIC(Akaike Information Criterion) (0) | 2023.04.25 |
댓글