본문 바로가기
통계 & 데이터분석/Stats101

귀무가설, 대립가설 그리고 P-hacking

by 미니티스틱 2023. 4. 7.

왜 귀무가설을 통해 대립가설을 증명할까

앞서 m&m 초콜릿으로 P-value 쉽게 이해하기 에서 P-value를 통해 [귀무가설을 기각한다.] 라고 했는데요, 왜 [대립가설을 받아들인다.] 라고 하지 않고, 꼭 한 번 돌려서 [귀무가설을 기각한다.]로 대립가설을 증명하는 것일까요?

 

2023.04.06 - [Stats101] - m&m 초콜릿으로 P-value 쉽게 이해하기

 

m&m 초콜릿으로 P-value 쉽게 이해하기

P-value의 P는 [Probability]에서 나온 단어인데요. 그렇다면 "무슨"확률을 뜻하는 걸까요? P-value는 귀무가설($H_0$, null hypothesis)이 사실일 때, 데이터에서 관찰된 값, 혹은 그 이상의 결과를 관찰할 확률

minitistics.tistory.com

 
설명의 편의를 위해, 두 그룹을 비교하는 가설을 세워보도록 하겠습니다. 예를 들어, 어떤 약이 효과가 있는지 실험하고 싶어 A그룹과 B그룹으로 나누어 집단 A에는 실제 약을 투여하고 B는 플라시보를 받았다고 가정합니다. 약이 쓰이는 곳은 제가 진단 받은 류마티스 관절염(갑분 tmi) 치료를 위한 것이라고 할게요. 약을 투여 후 3개월 후 다시 두 그룹을 비교해보았는데, A 그룹의 떨어진 염증수치(delta)가 평균 8였고, B그룹은 은 평균 5 이라고 합니다.
 

귀무가설 대립가설 그룹비교
그룹 A & B 염증 수치 비교

이 두 그룹을 비교할 때 생각할 수있는 가설은 다음 두 가지입니다.

 

$H_0$(귀무가설 - Null Hypothesis): $\mu_A = $mu_B$ (A그룹과 B그룹의 차이가 없다. = 약의 효과가 없다.)

$H_1$(대립가설 - Alternative Hypothesis): $\mu_A <> $mu_B$  (A그룹과 B그룹의 차이가 있다. = 약의 효과가 있다.)

 

이렇게 가설검정(Hypothesis test)에서는 기본적으로 귀무가설, 대립가설 두가지 가설을 세웁니다. 가설을 검증하기 위해서는 가설 중 하나가 정확하다는 것을 나타내거나 가설이 잘못되었음을 나타내면 되는데요, 통계적으로 가설 중 하나가 정확하다고 하기에는 모집단을 다 테스트하기는 어렵기때문에, 한 쪽 가설이 잘못되었음을 나타냄으로서 다른 가설을 지지하는 방식을 사용합니다.
 
 
그렇다면 귀무가설, 대립가설 중 어느 가설을 기각(가설을 부정) 하는 것이 쉬울까요?
 
귀무가설을 기각한다고 생각하는 경우: 두 집단에는 차이가 없다, 라는 가설대로라면 우리가 검정해야 하는 건 B그룹의 떨어진 평균 염증수치가 8인지 아닌지만 나타내면 됩니다. 8이라면 귀무가설을 기각할 이유가 없을 것이고, 8이 아니라면 귀무가설을 기각할 수 있는 것이죠.
 
대립가설을 기각한다고 생각하는 경우: 두 집단에는 차이가 있다, 라는 가설로 이 때 차이가 있다는 것을 증명하기 위해 B 가 취할 수 있는 값은 8 이외의 값으로 무한합니다. 즉, 다른 경우가 무궁구진하므로, 이 가설은 쉽게 기각할 수가 없겠죠.
 
그래서 우리는 귀무가설을 기각함으로써, 대립가설을 증명하는 방식을 사용합니다. P-value를 계산하여 5% 아래의 값이 나오면, 통계적으로 유의하다(Statistically significant)라고 하여 귀무가설을 기각하는 것이죠.
 
 

 

P-hacking

P-hacking역시 보충설명으로 조금 언급하자면, P-value를 편리에 맞게 조작하는 것을 말합니다. P-value를 일부러 유의수준 아래로 도출하는 방식으로, 일종의 속임수와 같다고 할 수 있어요. P-hacking을 의도적으로 행하는 것도 문제지만, 가설 검정을 실시할 때에 무의식적으로 실시하는 경우도 많습니다.
 

1. 표본집단, 즉 샘플의 수를 눌려서 검정을 실시하여 P-value 낮추기.

m&m 초콜릿으로 P-value 쉽게 이해하기에서 설명한 예로, 우리는 표본샘플은 m&m 20봉지를 써서 P-value가 0.01 (1%) 가 나왔습니다. 그런데 만약에 애초에 5봉지만 나서 테스트를 했는데 (샘플의 수만 바뀌었을 때의 P-value 변화를 확인하기 위해) 비슷한 표본평균이 나왔다고 가정하면,
 

  • 모집단 평균(Population mean($\mu$)): 45
  • 모집단 표준편차(Population standard deviation ($\sigma$)): 3.5
  • 표본 크기 (sample size (n)): 5 (이전엔 n이 20이었죠)
  • 표본 평균(sample mean ($\bar{x}$)): 46.8

$$Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt(n)}} = \frac{46.8-45}{\frac{3.5}{\sqrt{5}}}= 0.788$$
 
표준정규분포표에서 0.78을 찾아 계산하거나, R에서 계산하면 P-value는 0.21 즉 21%로 5% 유의수준 이상이므로 귀무가설을 기각할 충분한 증거가 되지 않습니다.

R로 P-value
R에서 계산한 p-value 결과값

이렇게 5봉지로 실험하여 21%로 귀무가설을 기각할 수 없으니, 20봉지로 늘려서 실험을 해보고 유의수준보다 낮은 P-value 를 얻어 귀무가설을 기각합니다.
 
우리는 그저 m&m으로 예를 들고 있는 수준이지만, 의학, 의약 분야에서 논문을 통과시키기 위해 일부러 표본의 수를 늘려 다시 검정을 한다고 하면 매우 위험한 경우가 된다는 것을 알 수 있습니다. 주로 귀무가설은 변화가 없다, 다르지 않다, 무죄이다와 같이 아무 일도 일어나지 않은 상황을 가정하는데요, 귀무가설을 기각하였을 때, 실험하고자 하는 상대가 유의하기 때문에 P-value를 낮추어 논문을 통과하도록 조작된 경우가 종종 있었다고 합니다.(어느 책에서 읽었는데, 도무지 찾을 수가 없네요. 언젠가는 통계 도서 다시 읽기하면서 기록하기를 해보겠습니다.)
 

2. 여러번 테스트를 하여 우연히 P-value가 유의수준보다 낮을 때의 결과를 취한다.

많은 실험을 이렇게도 저렇게도 변수를 바꾸어보고 샘플도 바꾸어서 반복하다보면 우연히 P-value가 유의 수준보다 낮을 가능성이 높아집니다. 이 때, 유의했던 그 한 경우만 보고를 하여 마치 그 실험이 도출하는 결과가 사실인 것 처럼 나타내는 경우가 있는데요. 이렇게 반복 실험 후 발생한 유의차를 발표하는 경우라면, 실험된 모든 검정 결과도 함께 보고할 필요가 있습니다.
 
 

 

 

 

반응형

댓글