본문 바로가기
통계 & 데이터분석/Stats101

Box Plot과 Histogram을 이용한 데이터 비대칭 분별

by 미니티스틱 2023. 4. 3.

지난 포스팅 평균값, 중간값, 최빈값에서 의미 있는 대표값을 사용하기 위해 box plot이나 히스토그램으로 데이터의 분포를 관찰하는 것이 좋다고 설명하였는데요, box plot과 히스토그램이 어떻게 해석되는지 알아보면 좋을 것 같아 box plot보는 법과 데이터 분포의 종류에 대해 준비했습니다. 

 

1. Box plot

 

Box Plot

Box plot의 가운데에 진하게 그려진 선은 중간값(median)을 나타냅니다. 가끔씩 평균이라고 혼동하는 경우가 있는데, 데이터 분포의 중간값을 나타내는 선 입니다. 그 선을 중심으로 주황색 박스 왼쪽이 Qartile 1(Q1), 오른쪽이 Qartile 3(Q3)가 됩니다. 이 말은 Q2가 중간값, 즉 median이라는 뜻도 되는데요, 데이터를 4개의 동일한 그룹으로 나누는 3가지 값을 각각 Q1, Q2, Q3라고 이해할 수 있습니다.

 

다음 데이터를 이용하여 Box plot을 만들어보았는데요, 

 [1]   2  10   4  22  16  10  18  26  34  17  28  14  20  24  28  26  34  34
[19]  46  26  36  60  80  20  26  54  32  40  32  40  50  42  56  76  84  36
[37]  46  68  32  48  52  56  64  66  54  70  92  93 120  85

 

 
이를 순서대로 정렬하면 다음과 같습니다.
 [1]   2   4  10  10  14  16  17  18  20  20  22  24  26  26  26  26  28  28  32  32  32  34
[23]  34  34  36  36  40  40  42  46  46  48  50  52  54  54  56  56  60  64  66  68  70  76
[45]  80  84  85  92  93 120​
 

이 나열된 숫자들을 4구간으로 똑같이 나누어 주면 아래와 같이 나누어질 수 있습니다. 일단 양쪽을 각각 25로 나눌 수 있는 자리를 잡으면 "|" 마크가 있는 (공교롭게도 숫자가 36으로 같은) 36의 사이 구간이 되는데요, 이 두 값의 평균인 36이 위의 데이터셋의 중간값(Q2)이 됩니다.

2   4  10  10  14  16  17  18  20  20  22  24  26  26  26  26  28  28  32  32  32  34  34  34  36 |36  40  
40  42  46  46  48  50  52  54  54  56  56  60  64  66  68  70  76 80  84  85  92  93 120

 

| 를 중심으로 왼쪽에서 다시 두 그룹으로 공평히 나누는 과정을 거치는데요, 이 때 13번째에 있는 값이 양쪽으로 12씩 숫자를 가져가면서 Q1 값이 됩니다. | 의 오른쪽의 경우도 같은 과정을 거쳐 56이 Q3가 됩니다.

 

 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2.00   26.00   36.00   42.98   56.00  120.00 

 

 

이 때 Q3-Q1을 IQR, 즉 Interquartile Range라고 합니다. Box Plot의 분포 range를 나타내는 whisker(점선)의 양끝은 최소값(min), 최대값(max)을 나타내고, 보통 $Q1- (1.5*IQR)$의 값보다 작거나,  $Q3 + (1.5*IQR)$ 의 값보다 크면 Outlier라고 정의합니다.

 

 

2. Histogram

그러면 이제, 데이터 분포를 나타내어주는 히스토그램과 Box plot을 함께 보도록 하겠습니다.

데이터의 비대칭 모형에 따라, 정규분포, 오른쪽 왜도(right skewness or positive skewness), 그리고 왼쪽 왜도(left skewness or negative skewness)로 나타낼 수 있습니다.

 
 

대칭 분포
비대칭 분포

 

  • 좌우대칭: 양쪽이 대칭인 정규분포의 경우에는 평균값, 중앙값, 최빈값이 같은 것을 알 수 있습니다.
  • Right-skewed: 주로 소득 분포에서 나타나며 주로 낮은 값에 데이터가 집중되어 있지만, 극단적으로 높은 값이 평균을 올리는 역할을 함으로써 최빈값 < 중앙값 < 평균값 순서로 나열됩니다.
  • Left-skewed: 대표적인 예로 사람들의 수명싸이클이 있는데요, 많은 사람들이 일정 나이 이후에 삶을 마감하는 일반적인 케이스와 그 전에 안타깝게 삶을 마감한 경우가 모여 비대칭한 데이터분포를 보입니다. 이 때는 아주 어린 나이의 경우가 평균을 줄이면서 최빈값 > 중앙값> 평균값 순서로 나열됨을 수 있습니다.

위의 히스토그램을 바로 아래 함께 표시된  Box Plot과 함께 보시면, 제일 처음 Box Plot에 대해 설명했던 부분을 좀 더 쉽게 이해하실 수 있을 거에요.

 

 

 

반응형

댓글