본문 바로가기

통계 & 데이터분석35

AIC(Akaike Information Criterion) AIC(Akaike Information Criterion)는 모델이 데이터에 얼마나 잘 맞는지 평가하기 위한 방법입니다. 이원 분산분석에서 다루었듯, AIC를 이용하여 다양한 모델을 비교하고 데이터에 가장 적합한 모델을 결정할 수 있는데요, AIC 수식을 외울 필요는 없지만, AIC 결과를 해석하는데에 있어 어떻게 만들어진 식인지 살짝 나타내어보면 아래와 같습니다. AIC = 2K - 2ln(L) K는 모델을 구축하는데 사용되는 독립 변수의 수 (이원 분산분석의 예로 들자면 체중감량 프로그램 + 성별), 그리고 L은 Likelihood의 약자로, 해당 모델을 이용하였을 때, 데이터를 얼마나 잘 재현하는지(즉, 모델이 관찰된 종속변수(y) 값을 생성할 수 있는 가능성)를 나타내는 값 입니다. 이 log .. 2023. 4. 25.
이원 분산분석(Two-way ANOVA) 앞서 일원 분산분석에서 체중감량 프로그램 A, B, C 의 모분산 평균 차이를 비교하여 어느 프로그램이 통계적으로 유의한가를 찾아보는 검정 과정을 R로 함께 풀어보았는데요, 오늘은 잠시 설명했던 이원 분산분석으로 들어가보겠습니다. 2023.04.23 - [Stats101] - 일원 분산분석 (One-way ANOVA) 일원 분산분석 (One-way ANOVA) t검정의 종류를 정리하면서, 한 그룹(데이터셋 하나)을 그의 기댓값과 비교하거나, 두 그룹의 평균 차이(서로 다른 두 그룹, 혹은 동인한 그룹에서 변화가 있는 경우)가 통계적으로 유의한지를 minitistics.tistory.com 1. One-way Anova(일원 분산분석): 독립 변수가 하나인 경우 (체중감량 프로그램 혹은 성별) 2. Two.. 2023. 4. 24.
일원 분산분석 (One-way ANOVA) t검정의 종류를 정리하면서, 한 그룹(데이터셋 하나)을 그의 기댓값과 비교하거나, 두 그룹의 평균 차이(서로 다른 두 그룹, 혹은 동인한 그룹에서 변화가 있는 경우)가 통계적으로 유의한지를 위한 가설 검정이라는 것을 배웠습니다. 그런데, 세상에 딱 두그룹만 비교하는 일만 있지 않습니다. 만약에 비교해야할 대상이 두 그룹이 넘어가면 어떤 가설 검정을 사용해야할까요? 2023.04.21 - [Stats101] - t 검정의 종류와 방법 t 검정의 종류와 방법 t 테스트는 주로 두 그룹의 평균을 비교하는 데 사용되는 통계 검정입니다. 두 그룹이 서로 다른지 여부를 결정하기 위해 가설 검정에 자주 사용되는데, 언제, 어떤 유형의 t-test를 사용는지 알아 minitistics.tistory.com 두 그룹 이.. 2023. 4. 23.
t 검정의 종류와 방법 t 테스트는 주로 두 그룹의 평균을 비교하는 데 사용되는 통계 검정입니다. 두 그룹이 서로 다른지 여부를 결정하기 위해 가설 검정에 자주 사용되는데, 언제, 어떤 유형의 t-test를 사용는지 알아보겠습니다. 2023.04.19 - [분류 전체보기] - t-분포(t-Distribution) t-분포(t-Distribution) t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을 minitistics.tistory.com t-test를 이해하기 위해 매뉴얼로 계산한다고 하면 z-test에서 정규분포표를 사용하였듯 t-table을 사용할 텐데요.. 2023. 4. 21.
t-분포(t-Distribution) t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을 형성하며, 평균 근처에 더 많은 관측치가 있고 꼬리부분이 두꺼운 것을 알 수 있어요(fat tail). 꼬리가 두껍다는 뜻은, 평균에서 먼 값, 즉 예상되는 값보다 훨씬 크거나 작은 값이 관찰될 확률이 높다는 뜻이 됩니다. 데이터 분포의 불확실성이 매우 크죠. t-분포가 작은 표본크기에 사용되는 분포이니만큼 예상된 결과라고 할 수 있습니다. 2023.04.01 - [Stats101] - 정규 분포(Normal Distribution) 정규 분포(Normal Distribution) 정규분포.. 2023. 4. 19.
Confusion Matrix Confusion matixs는 통계적 분류를 하는데에 있어, 모델의 성과를 측정하기 위한 직관적인 도구입니다. 위의 도표와 같이 실제 값과 예측값의 정확도 뿐만 아니라, 민감도, 특이도, 정밀도 등을 검사하여 모델 성능의 실제 영향을 전달하기 위한 최고의 시각적 자료 중 하나가 되죠. 기본적으로 어떤 사안이 맞다, 아니다라는 베이스를 얼마나 올바르게 맞다, 아니다로 예측하였는지를 보여주는데요, 2X2 매트릭스가 나오는걸 알 수 있습니다. 한국어로는 진양성, 진음성, 위양성(가양성), 위음성(가음성)이라고도 하는데 이 포스팅에서는 TP, TN, FP, FN으로 풀어가겠습니다. True Positives (TP - 진양성): 맞는 것을 맞다고 예측한 경우. True negatives (TN - 진음성) :.. 2023. 4. 17.
표준오차, 표본오차와 신뢰구간 앞서 표본 표준편차에는 왜 n-1을 할까? 에서 표본 집단과 표본 평균집단이 다르다는 점을 설명하였는데요, 표준편차와 표본오차가 헷갈릴 수 있을 것 같아 잠시 짚고 넘어가보겠습니다. 2023.04.12 - [Stats101] - 표본 표준편차에는 왜 n-1을 할까? 표본 표준편차에는 왜 n-1을 할까? 지난 포스팅 분산과 표준편차에서 분산과 표준 편차 구하는 공식과 함께 어떻게 표본 집단의 분산에 n-1을 취했을 때 모분산과 같아지는지 예시를 통해서 설명하였습니다. 이번 포스팅에서는 수 minitistics.tistory.com (1)표준편차(population standard deviation) : 모집단의 표준편차 (2)표본표준편차(sample standard deviation) : 표본의 표준편차 .. 2023. 4. 16.
표본 표준편차에는 왜 n-1을 할까? 지난 포스팅 분산과 표준편차에서 분산과 표준 편차 구하는 공식과 함께 어떻게 표본 집단의 분산에 n-1을 취했을 때 모분산과 같아지는지 예시를 통해서 설명하였습니다. 이번 포스팅에서는 수식을 통해서 이해해 보는 시간을 갖도록 해볼 거예요. 2023.04.09 - [Stats101] - 분산과 표준편차 분산과 표준편차 정규분포는 평균과 표준편차에 의해 분포의 모양이 결정됩니다. 여기서 표준편차는 분산의 제곱근으로 데이터의 변동성을 나타내는데요, 변동성이란 데이터가 서로 그리고 분포 중심(mu)에서 minitistics.tistory.com 일단 표본 집단과 표본 평균 집단이 다르다는 것을 알고 넘어가야 할 텐데요. 표본집단의 표준 편차를 계산할 때 왜 n-1인가를 설명하기 전에, 표본 평균 집단의 분산과 .. 2023. 4. 12.
분산과 표준편차 정규분포는 평균과 표준편차에 의해 분포의 모양이 결정됩니다. 여기서 표준편차는 분산의 제곱근으로 데이터의 변동성을 나타내는데요, 변동성이란 데이터가 서로 그리고 분포 중심(mu)에서 얼마나 멀리 떨어져 있는지를 나타냅니다. 2023.04.01 - [Stats101] - 정규 분포(Normal Distribution) 정규 분포(Normal Distribution) 정규분포란? 정규분포(Normal Distribution)는 가우시안 분포(Gaussian Distribution)라고도 알려져 있는데요, 통계학에서의 검정이나 추정, 모델 작성 등 다양한 측면에서 활용되는 연속형 확률분포(Continuou minitistics.tistory.com 변동성의 정도에 따라 표본 집단(샘플)의 결과를 모집단에 얼마.. 2023. 4. 9.
귀무가설, 대립가설 그리고 P-hacking 왜 귀무가설을 통해 대립가설을 증명할까 앞서 m&m 초콜릿으로 P-value 쉽게 이해하기 에서 P-value를 통해 [귀무가설을 기각한다.] 라고 했는데요, 왜 [대립가설을 받아들인다.] 라고 하지 않고, 꼭 한 번 돌려서 [귀무가설을 기각한다.]로 대립가설을 증명하는 것일까요? 2023.04.06 - [Stats101] - m&m 초콜릿으로 P-value 쉽게 이해하기 m&m 초콜릿으로 P-value 쉽게 이해하기 P-value의 P는 [Probability]에서 나온 단어인데요. 그렇다면 "무슨"확률을 뜻하는 걸까요? P-value는 귀무가설($H_0$, null hypothesis)이 사실일 때, 데이터에서 관찰된 값, 혹은 그 이상의 결과를 관찰할 확률 minitistics.tistory.com.. 2023. 4. 7.
반응형