본문 바로가기
통계 & 데이터분석/Stats101

표준화 및 표준 정규 분포(Standard Normal Distribution)

by 미니티스틱 2023. 4. 4.

정규분포(Normal Distribution)에서 잠시 언급하였듯, 정규 분포를 따르는 자연 현상이나 사회 현상은 무궁무진합니다. 그만큼 정규분포를 구성하는 평균과 분산이 다양하기 때문에, 세상의 모든 정규분포를 분포표로서 사용하는 것은 매우 복잡한데요, 이를 해결하기 위한 방안으로 데이터를 표준화(Standardise, Normalise, Scale)합니다. 표준화된 데이터는 표준 정규분포(Standard/Standardised Normal Distribution)를 이용하여, 일정 구간의 확률면적을 구할 수 있습니다.

 

2023.04.01 - [Stats101] - 정규 분포(Normal Distribution)

 

정규 분포(Normal Distribution)

정규분포란? 정규분포(Normal Distribution)는 가우시안 분포(Gaussian Distribution)라고도 알려져 있는데요, 통계학에서의 검정이나 추정, 모델 작성 등 다양한 측면에서 활용되는 연속형 확률분포(Continuou

minitistics.tistory.com


표준화는 어떻게 할까?

표준화는 세상의 무수한 데이터($x_i$)를 동일한 평균과 표준 편차를 갖도록 확률 변수를 변환하는 것입니다. 계산 방법은, 해당 값 ($x_i$)에서 모평균 ($\mu$)을 뺀 다음 표준 편차 ($\sigma$)로 나눕니다. 이 식을 문장으로 풀어보면, 데이터 값이 평균으로부터 떨어진 거리가 표준 편차의 몇 배인지를 나타내는 걸 알 수 있습니다. 이때이 때 표준화된 $x$의 값을 $Z$로 표기하고, Z-score라고 합니다.

 

 

Z -score로 변환된 값은 단위에 관계없이 평균 0, 표준 편차 1의 값을 갖게 됩니다. 즉, 데이터가 신장이든 체중이든 각각의 $\mu\pm1\times\sigma, \mu\pm2\times\sigma, \mu\pm3\times\sigma$ 면적은 동일하게 됩니다. 따라서, 신장이나 체중과 같이 단위가 다르더라도, 표준화하여 표준 정규 분포표를 이용하면, 일정 구간의 확률(면적)을 구할 수 있는 거죠.

 

예를 들어보겠습니다.  평균 몸무게가 75kg, 표준편차가 3인 그룹에서 (계산을 편리하게 하기 위해) 몸무게 70.5 이상 79.5 이하일 확률을 구하고 싶다고 가정해 봅니다. 그렇다면 위의 표준화 공식에 따라

 

$$70.5 <= X <= 79.5$$

$$\frac{70.5-\mu}{\sigma} <= Z <= \frac{79.5-\mu}{\sigma}$$

$$\frac{70.5-75}{3} <= Z <= \frac{79.5-75}{3}$$

$$-1.5 <= Z <= 1.5$$

 

즉, Z-score가 -1.5와 1.5 사이에 오는 확률을 구하면 되는 것입니다. 표준 정규분포로 나타내면 아래와 같습니다. 빨간색으로 칠한 면적이 우리가 알고 싶은 확률이 됩니다.

 

표준화의 의미

 

 

표준정규분포의 면적은 표준정규분포표를 이용하여 구하는데요, 이와 같은 경우는 1.5가 좌우 대칭으로 있는 것과 다름없으므로 아래의 One-Tailed 표를 사용하여 1.50의 값*2를 하면 확률을 구할 수 있습니다.

 

$$0.4332\times2 = 0.8664$$

 

즉, 해당 그룹에서 무작위로 한 사람을 뽑았을 때, 그 사람의 몸무게가 70.5 - 79.5 사이에 들어갈 확률은 86.6%이 됩니다.

 

표준 정규 분포표


이런 방식으로, 다른 단위의 데이터, 예를 들어 한국 남성의 평균 키와 표준편차를 이용한다고 가정하면, 알고 싶은 키 구간의 확률을 위와 같이 표준화한 후, 표준 정규 분포표를 이용하여 구할 수 있습니다. 처음에 말했던 것처럼, 세상의 무궁무진한 현상들을 이렇게 표준화하여 확률을 구할 수 있는 것이죠. 

 

고등학교 통계 시간 제일 첫 장에서 배웠던 개념인 것 같은데, 이렇게 따로 정리를 해보니 새롭네요. 짧지만 이해하기 쉬운 개념이 되었길 바랍니다.

 

 

 

 

반응형

댓글