본문 바로가기

통계 & 데이터분석33

Box Plot과 Histogram을 이용한 데이터 비대칭 분별 지난 포스팅 평균값, 중간값, 최빈값에서 의미 있는 대표값을 사용하기 위해 box plot이나 히스토그램으로 데이터의 분포를 관찰하는 것이 좋다고 설명하였는데요, box plot과 히스토그램이 어떻게 해석되는지 알아보면 좋을 것 같아 box plot보는 법과 데이터 분포의 종류에 대해 준비했습니다. 평균값(Mean), 중앙값(Median), 최빈값(Mode) '평균'이라는 개념은 우리에게 매우 익숙합니다. 시험점수를 각 과목별로 합한 후, 전체 과목의 수로 나누어 계산한 값, 즉 평균으로 등수가 결정되었죠. 평균값은 이 외에도 대표값으로 사용되 minitistics.tistory.com 1. Box plot Box plot의 가운데에 진하게 그려진 선은 중간값(median)을 나타냅니다. 가끔씩 평균이라.. 2023. 4. 3.
평균값(Mean), 중앙값(Median), 최빈값(Mode) '평균'이라는 개념은 우리에게 매우 익숙합니다. 시험점수를 각 과목별로 합한 후, 전체 과목의 수로 나누어 계산한 값, 즉 평균으로 등수가 결정되었죠. 평균값은 이 외에도 대표값으로 사용되는 경우가 많은데요, 이 평균값이 언제나 데이터를 대표하는 가장 좋은 값일까요? 분포의 형태에 따라서는 최빈값이나 중앙값을 고려해야 하는 경우도 있는데요, 지금부터 이 세 가지 값(평균값, 중앙값, 최빈값) 대해 알아보겠습니다. 1. 평균값 평균은 앞에서 설명한 바와 같이 모든 데이터의 값((x_1,x_2,x_3, ... , x_n))을 더하여 데이터 수(n)로 나눈 값입니다. 식으로 나타내면 다음과 같이 됩니다. x(bar) = (x_1+x_2+x_3+ ... + x_n)/n 데이터가 도수 분포표의 형태로 되어 있는 .. 2023. 4. 2.
정규 분포(Normal Distribution) 정규분포란? 정규분포(Normal Distribution)는 가우시안 분포(Gaussian Distribution)라고도 알려져 있는데요, 통계학에서의 검정이나 추정, 모델 작성 등 다양한 측면에서 활용되는 연속형 확률분포(Continuous Probability Distribution) 입니다. 데이터 대부분의 값이 가운데에 모여 있고, 중앙에서 멀어질수록 점점 가늘어지는 종형모양으로, 치우침(왜곡 - skewed) 없이 대칭적으로 분포합니다. 정규분포를 구성하는 변수(parameters)로는 평균(mu)과 표준편차(sigma)가 있습니다. 즉, 평균과 표준편차가 달라지면 그래프의 모양도 달라진다는 뜻이 됩니다. 정규 분포(Probability Density Fucntion)를 식으로 나타내면 아래 식.. 2023. 4. 1.
반응형