본문 바로가기
통계 & 데이터분석/Stats101

평균값(Mean), 중앙값(Median), 최빈값(Mode)

by 미니티스틱 2023. 4. 2.

'평균'이라는 개념은 우리에게 매우 익숙합니다. 시험점수를 각 과목별로 합한 후, 전체 과목의 수로 나누어 계산한 값, 즉 평균으로 등수가 결정되었죠. 평균값은 이 외에도 대표값으로 사용되는 경우가 많은데요, 이 평균값이 언제나 데이터를 대표하는 가장 좋은 값일까요? 분포의 형태에 따라서는 최빈값이나 중앙값을 고려해야 하는 경우도 있는데요, 지금부터 이 세 가지 값(평균값, 중앙값, 최빈값) 대해 알아보겠습니다.

 

1. 평균값

평균은 앞에서 설명한 바와 같이 모든 데이터의 값((x_1,x_2,x_3, ... , x_n))을 더하여 데이터 수(n)로 나눈 값입니다. 식으로 나타내면 다음과 같이 됩니다. 

x(bar) = (x_1+x_2+x_3+ ... + x_n)/n

 

데이터가 도수 분포표의 형태로 되어 있는 경우는, 계급치와 빈도수를 사용해 대략의 평균을 산출할 수 있습니다. n개의 계급을 가지는 도수 분포표의 경우, 계급값을 $x_i$, 빈도수를 $a_i$ (i=1, 2, …, n)로 하면 다음 식이 됩니다.

$$\bar{x} = \frac{\left(a_1x_1 + a_2x_2 + a_3x_3 + \ldots + a_nx_n\right)}{\left(a_1 + a_2 + a_3 + \ldots + a_n\right)}$$

 

예를 들어,  학생 수가 40명인 학급의 수학점수의 빈도 분포표를 생각해 보겠습니다.

계급 계급값 빈도
20 이상 30 미만 25 0
30 이상 40 미만 35 2
40 이상 50 미만 45 0
50 이상 60 미만 55 8
60 이상 70 미만 65 10
70 이상 80 미만 75 11
80 이상 90 미만 85 9
90 이상 100 미만 95 0

이 경우 평균은 다음과 같이 계산됩니다.

 

$$\bar{x} = \frac{\left(35\times2 + 55\times8 + 65\times10 + 75\times11 + 85\times9\right)}{\left(2+8+10+11+9\right)} = 68.75$$

 

 

2. 중앙값(Median)

중앙값(Median)은 데이터를 최소값에서 최대값까지를 순서대로 늘어놓을 때 정확히 중간에 오는 값입니다. 데이터의 개수가 짝수인 경우는, 가운데에 오는 2 개의 값의 평균을 취합니다. 이 중앙값은 50% 타일(50th quantile)이라고도 합니다. 50% 타일은 데이터를 최소값에서 순서대로 정렬할 때 정확히 50%에 위치하는 값입니다.

 

분포의 편향이 큰 경우에는 평균보다 중앙값이 좋을 수도 있습니다. 예를 들어, 소득 분포의 구조에서 한 집단의 평균 소득을 연봉 100억의 한 사람이 올릴 수 있는 것이죠. 소득을 백만 단위로 나타내었을 때, [28, 35, 45, 55, 27, 33, 40, 65, 10,000]과 같은 데이터가 있다고 가정합니다. 이 경우 10,000을 포함한 평균값은 1,148 인데, 중앙값은 40입니다. 평균값이 과대평가되었죠. 이와 같은 경우에는 중앙값이 좀 더 안정적인 값이라 볼 수 있습니다.

 

하지만, 중앙값은 전체 데이터가 아닌 핀 포인트에서 중간만을 나타내므로 전체 데이터의 변경이나 비교에 적합하지 않을 수 있습니다. 예를 들어, 3명의 테스트 결과가 50점, 70점, 90점이었다고 합시다. 다음 테스트에서 90점의 사람이 100점을 차지하더라도 다른 2명이 변하지 않으면 중앙값은 70점으로 변하지 않습니다. 이 경우 중앙값을 보고 "테스트 점수는 변하지 않았다"라고 하면 고득점을 취한 사람의 경우가 분석에서 제외되는 것과 다름이 없게 됩니다. 또한 3명의 다음 테스트 결과가 30점, 75점, 80점이 되었다고 한다면, 중간 이외의 점수가 내려도 중간의 사람의 점수가 오르기 때문에 중앙값은 올라갑니다. 이 경우 중앙값을 보고 "테스트 점수가 올랐다"라고 분석하는 것도 안 되겠죠.

 

 

3. 최빈값(Mode)

모드는 가장 빈번한 값으로 데이터에서 가장 많이 나타나는 값입니다.

 

가장 빈번한 값은 데이터 수가 많은 경우에만 사용할 수 있다는 단점이 있습니다. 데이터 수가 적거나 같은 수치가 적은 경우는 범위로 단락 지어 집계하는 방법도 있는데, 이때  범위를 구분하는 방법을 결정하는 것은 쉽지 않습니다. 예를 들어, 샘플 30명의 몸무게가 다음과 같다고 가정해 봅니다.

 

계급 계급값 빈도
50kg 이상 55kg 미만 52.5kg 3
55kg 이상 60kg 미만 57.5kg 8
60kg 이상 65kg 미만 62.5kg 5
65kg 이상 70kg 미만 67.5kg 7
70kg 이상  75kg 미만 72.5kg 4
75kg 이상 80kg 미만 77.5kg 3

 

위와 같이 5kg 단위라면, 데이터가 제일 많은 구간은 55kg~60kg입니다. 그러나, 10kg씩 하면 60kg~70kg이 데이터가 가장 많은 구간으로 나오게 됩니다. 즉, 처음에 데이터가 많은 구간이었던 55kg ~ 60kg이 제외되게 되죠. 이와 같이, 최빈값에는 구간을 어떻게 할지에 따라 값이 바뀔 가능성이 있습니다. 

 

대표값은 분포의 특징을 나타내는 중요한 지표지만, 단 하나의 대표값으로 집단을 판단하는 거슨 위험하다는 것을 알 수 있습니다. 내가 이용하려는 대표값이 지금 하고자 하는 분석에 적합한지의 여부를 판단한 후, 의미 있는 대표값을 사용하는 것이 분석가의 일이라고 할 수 있습니다. 좀 더 정확한 분포를 보기 위해 box plot이나 히스토그램을 사용하는 것도 좋은 방법입니다.

 

데이터의 비대칭, 즉 평균값과 중앙값, 최빈값이 일치하지 않는 Right-Skewness Left-Skewness 와 이에 대한 예시는 Box Plot과 Histogram을 이용한 데이터 비대칭 분별에서 설명하겠습니다.

 

 

반응형

댓글