카이제곱 적합도 검정에 이어, 이번에는 카이제곱 독립 검정(Chi-square Test of Independence)를 알아보도록 하겠습니다. 우리가 적합도 검정에서는 m&m 초콜릿 색깔 분포로, 하나의 범주형 변수가 있을 때 사용하였는데요, 카이제곱 독립 검정은 두 개의 범주형 변수가 있을 때 사용합니다. 즉, 이 두 변수의 관계가 독립적인가 아닌가에 대한 가설을 검정하는 것이죠. 우리가 테스트하는 가설은 다음과 같습니다.
2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test
귀무가설: 모집단에서 변수 1과 변수 2는 독립적이다(서로 관련이 없다).
대립가설: 모집단에서 변수 1과 변수 2는 모집단에서 관련이 있다(종속적이다).
1. Exploratory Analysis
이번 검정을 위해서는 R의 library(Mass)에 있는 데이터 survey를 사용하도록 할게요. survey의 데이터 구성은 다음과 같습니다. 237의 관찰값이 있고, 12개의 변수가 있음을 알 수 있습니다. 이 중, 우리는 흡연(Smoke)과 운동(Exer)의 관계에 대해서 알아보고자 합니다. 즉,
귀무가설: 모집단의 흡연 정도와 운동량은 독립적이다.
대립가설: 모집단의 흡연 정도와 운동량은 서로 관련이 있다.
에 대한 가설검정을 하는 것입니다.
데이터에서 흡연(smoke)의 값으로는 [Heavy(매우 자주)], [Regul(정기적)], [Occas(종종)] 그리고 [Never(전혀안함)]입니다. 운동(Exer)은 [Freq(자주)], [Some(조금)] 및 [None(전혀안함)]으로 볼 수 있겠습니다. 이 두 변수의 관계를 시각적으로 나타내어보면 다음과 같습니다. 흡연을 매우 자주(Heavy) 하는 사람들 중 운동 또한 자주(Freq) 하는 사람의 비율이 높은 편인데요, 이와 같이 흡연과 운동의 관계가 그룹의 다른 값에서도 비슷한 패턴을 보이는지(서로 연관이 있는지)를 알아보는 것이, 카이제곱 독립검정의 핵심입니다.
2. Contingency table
변수 조합의 분포를 나타내는 표를 Contingency table 이라고 하는데, 도수 분포표의 개념과 같습니다. 흡연과 운동, 두 변수만 extract 하여 테이블로 나타내어 보면:
다음 스텝에서의 계산 이해를 돕기 위해 관찰값 행과 열의 합계를 함께 나타내어 보겠습니다. 위의 ggplot에서도 확인 되었지만, 운동량 None, 흡연 Null이 존재하는데, 데이터에서 이 관찰값은 하나로 확인 되었습니다. 단 하나의 데이터 포인트이고, None 과 null이라는 값으로 데이터 분석에 큰 영향을 미치지 않은 것으로 예상되며, Contingency table에서는 자동적으로 제거되었습니다.
Freq | None | Some | Total | |
Heavy | 7 | 1 | 3 | 11 |
Never | 87 | 18 | 84 | 189 |
Occas | 12 | 3 | 4 | 19 |
Regul | 9 | 1 | 7 | 17 |
Total | 115 | 23 | 98 | 236 |
검정 통계량을 계산하기 전, 기댓값을 먼저 계산해야 합니다. 두 변수의 관계에서 기댓값을 얻어야 하므로, 여기서는 (행의 total 값 * 열의 total 값)/(전체 관찰값)이 각 변수 조합의 기댓값이 됩니다.
기댓값의 행과 열의 값은 다음과 같습니다:
Freq | None | Some | Total | |
Heavy | 11*115/236 | 11*23/236 | 11*98/236 | 11 |
Never | 189*115/236 | 189*23/236 | 189*98/236 | 189 |
Occas | 19*115/236 | 19*23/236 | 19*98/236 | 19 |
Regul | 17*115/236 | 17*23/236 | 17*98/236 | 17 |
Total | 115 | 23 | 98 | 236 |
3. 카이제곱 독립 검정 통계량
이 부분은 사실 카이제곱 적합도 검정 통계량에서 관찰값(Observed)와 기댓값(Expected)을 서로 비교했던 개념과 같습니다. 다만, 해석에서 다른 점이 있다면, 적합도는 모집단이 특정 분포를 따르느냐 아니냐를 검정하였다면, 독립 검정에서는 두 변수 간의 관계가 독립적인가 의존적인가에 있다는 점입니다.
여기서는 흡연의 정도와 운동량이 서로 영향을 미치는 변수인가에 중점을 두는 것이죠. 이 때, 두 변수가 관련되어 있는 경우 한 변수가 특정 값을 가질 확률은 다른 변수의 값에 따라 달라지게 됩니다. 서로 독립이 아닌, 종속적 관계이기 때문이죠.
Smoke | Exer | Observed | Expected |
|
Heavy | Freq | 7 | 5.36 | 0.50 |
None | 1 | 1.07 | 0.00 | |
Some | 3 | 4.57 | 0.54 | |
Never | Freq | 87 | 92.1 | 0.28 |
None | 18 | 18.42 | 0.01 | |
Some | 84 | 78.15 | 0.39 | |
Occas | Freq | 12 | 9.26 | 0.81 |
None | 3 | 1.85 | 0.71 | |
Some | 4 | 7.89 | 1.92 | |
Regul | Freq | 9 | 8.28 | 0.06 |
None | 1 | 1.66 | 0.26 | |
Some | 7 | 7.06 | 0.00 | |
Total | 5.49 |
3. 카이제곱 임계값(Critical Value) 구하기
임계값을 구하기 위해서는 카이제곱 적합도 검정과 같은 정보를 필요로 합니다. 다만 범주형 변수가 두 개로 자유도를 구하는 방식이 달라집니다.
1. 자유도(df): (변수1 그룹 -1) * (변수 2 그룹 -1) 으로 (4-1)*(3-1) = 6 입니다.
2. 유의수준(α): 일반적으로 유의 수준을 0.05로 세웁니다.
아래의 표에서, 카이제곱 임계값을 찾아보면, 12.59가 됩니다($\chi^2_{0.05, 6} = 12.59$)
4. 카이제곱 독립 검정 R에서 실행하기
Contingency table을 토대로 카이제곱 독립 검정을 실행할 수 있는데요, 결과는 다음과 같습니다.
우리가 3번에서 매뉴얼로 계산한 카이 검정 통계량 5.49의 값이 R의 출력값에서도 같음을 알 수 있죠. 그리고 이 검정 통계량에 해당하는 p-value 는 0.48 (>0.05)로 유의 수준보다 훨씬 높습니다.
5. 카이제곱 독립 검정 해석
카이제곱 검정 통계량이 임계값보다 크면 귀무가설을 기각하고 대립가설을 뒷받침할 충분한 근거가 있다고 보고, 그 반대의 경우는 귀무가설을 기각할 근거가 충분하지 않다고 하였으므로, 5.52 <12.59 는 귀무가설을 기각할 증거가 충분하지 않음을 나타냅니다. 또한 R에서 검정을 실행하여 계산된 p-value 값 역시 0.48로 유의 수준(0.05) 보다 높아, 흡연 정도와 운동량에는 서로 관계가 없다는 결론을 내릴 수 있습니다.
위의 R출력값에서 눈치 채신 분도 있으셨겠지만, Warning 사인이 있어요. 적합도 검정에서도 다루었지만, 각 그룹의 기댓값이 최소 5 이상이어야 한다는 거 기억하시나요? 우리가 3번에서 계산한 그룹의 값 중 운동량(None)값이 현저히 낮음을 알 수 있습니다. 데이터 그룹의 기댓값을 높이기 위해 운동량 None과 Some을 한 그룹으로 가정하고 다시 한번 카이제곱 독립 검정을 R로 실행해 보겠습니다.
보시다시피, Warning 사인은 없어졌지만, 여전히 p-value는 유의 수준보다 높습니다. 결국, 흡연을 많이 하는 사람이든 적게 하는 사람이든, 그들이 운동을 많이 하거나 적게 하는 데에는 아무 관련이 없다는 결론을 내릴 수 있습니다.
'통계 & 데이터분석 > Stats101' 카테고리의 다른 글
자유도(Degrees of freedom) (0) | 2023.05.01 |
---|---|
카이제곱 분포(Chi-square distribution) (0) | 2023.04.30 |
카이제곱 적합도 검정(feat. m&m) - Goodness of fit test (0) | 2023.04.28 |
AIC(Akaike Information Criterion) (0) | 2023.04.25 |
이원 분산분석(Two-way ANOVA) (0) | 2023.04.24 |
댓글