본문 바로가기

분류 전체보기48

카이제곱 분포(Chi-square distribution) 카이제곱 분포의 모양은 자유도(k)에 의해 결정됩니다. 카이제곱 분포를 따르는 실제 생활의 데이터는 잘 없다고 알려져있는데요, 카이제곱 적합도 검정과 카이제곱 독립 검정을 포함한 가설 검정에 널리 사용되고 있습니다. 즉, 카이제곱 분포의 주요 목적은 실제 분포를 설명하는데에 있다기 보다는, 데이터가 특정 분포를 따르는지, 혹은 데이터의 두 변수가 서로 독립적인지 종속적인지 알아보는 가설 검정에 사용하는 분포입니다. 2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 2023.04.29 - [Stats101] - 카이제곱 독립성 검정 - Test of Independence 카이제곱 독립성 검정 - Test of Independe.. 2023. 4. 30.
카이제곱 독립성 검정 - Test of Independence 카이제곱 적합도 검정에 이어, 이번에는 카이제곱 독립 검정(Chi-square Test of Independence)를 알아보도록 하겠습니다. 우리가 적합도 검정에서는 m&m 초콜릿 색깔 분포로, 하나의 범주형 변수가 있을 때 사용하였는데요, 카이제곱 독립 검정은 두 개의 범주형 변수가 있을 때 사용합니다. 즉, 이 두 변수의 관계가 독립적인가 아닌가에 대한 가설을 검정하는 것이죠. 우리가 테스트하는 가설은 다음과 같습니다. 2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱(chi^2) 적합도 검정(Goodness of fit test).. 2023. 4. 29.
 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱(chi^2) 적합도 검정(Goodness of fit test)은 우리가 여태까지 배워온 t검정, 분산분석과 같은 가설검정입니다. 즉, 샘플을 기반으로 모집단 분포에 대한 결론을 도출하는데요, 카이 제곱의 적합도 테스트를 사용하여 모집단이 해당 분포를 따른다는 결론을 내릴 만큼 적합도가 충분히 좋은가의 여부를 테스트할 수 있습니다. 카이제곱 적합도 검정은 통계 모델이 일련의 관찰에 얼마나 잘 맞는지 알려줍니다. 적합도가 높으면 모델을 기반으로 예상되는 값이 관측값에 가깝고, 반대로 적합도가 낮으면 모델을 기반으로 예상되는 값이 관측값과 멀리 떨어져 있겠죠. 그렇다면 언제 카이제곱 적합도 검정을 사용할 수 있을까요? 범주형 변수: 하나의 범주형 변수에 대한 분포를 따르는지의 가설 검정이므로, 범주.. 2023. 4. 28.
AIC(Akaike Information Criterion) AIC(Akaike Information Criterion)는 모델이 데이터에 얼마나 잘 맞는지 평가하기 위한 방법입니다. 이원 분산분석에서 다루었듯, AIC를 이용하여 다양한 모델을 비교하고 데이터에 가장 적합한 모델을 결정할 수 있는데요, AIC 수식을 외울 필요는 없지만, AIC 결과를 해석하는데에 있어 어떻게 만들어진 식인지 살짝 나타내어보면 아래와 같습니다. AIC = 2K - 2ln(L) K는 모델을 구축하는데 사용되는 독립 변수의 수 (이원 분산분석의 예로 들자면 체중감량 프로그램 + 성별), 그리고 L은 Likelihood의 약자로, 해당 모델을 이용하였을 때, 데이터를 얼마나 잘 재현하는지(즉, 모델이 관찰된 종속변수(y) 값을 생성할 수 있는 가능성)를 나타내는 값 입니다. 이 log .. 2023. 4. 25.
이원 분산분석(Two-way ANOVA) 앞서 일원 분산분석에서 체중감량 프로그램 A, B, C 의 모분산 평균 차이를 비교하여 어느 프로그램이 통계적으로 유의한가를 찾아보는 검정 과정을 R로 함께 풀어보았는데요, 오늘은 잠시 설명했던 이원 분산분석으로 들어가보겠습니다. 2023.04.23 - [Stats101] - 일원 분산분석 (One-way ANOVA) 일원 분산분석 (One-way ANOVA) t검정의 종류를 정리하면서, 한 그룹(데이터셋 하나)을 그의 기댓값과 비교하거나, 두 그룹의 평균 차이(서로 다른 두 그룹, 혹은 동인한 그룹에서 변화가 있는 경우)가 통계적으로 유의한지를 minitistics.tistory.com 1. One-way Anova(일원 분산분석): 독립 변수가 하나인 경우 (체중감량 프로그램 혹은 성별) 2. Two.. 2023. 4. 24.
일원 분산분석 (One-way ANOVA) t검정의 종류를 정리하면서, 한 그룹(데이터셋 하나)을 그의 기댓값과 비교하거나, 두 그룹의 평균 차이(서로 다른 두 그룹, 혹은 동인한 그룹에서 변화가 있는 경우)가 통계적으로 유의한지를 위한 가설 검정이라는 것을 배웠습니다. 그런데, 세상에 딱 두그룹만 비교하는 일만 있지 않습니다. 만약에 비교해야할 대상이 두 그룹이 넘어가면 어떤 가설 검정을 사용해야할까요? 2023.04.21 - [Stats101] - t 검정의 종류와 방법 t 검정의 종류와 방법 t 테스트는 주로 두 그룹의 평균을 비교하는 데 사용되는 통계 검정입니다. 두 그룹이 서로 다른지 여부를 결정하기 위해 가설 검정에 자주 사용되는데, 언제, 어떤 유형의 t-test를 사용는지 알아 minitistics.tistory.com 두 그룹 이.. 2023. 4. 23.
t 검정의 종류와 방법 t 테스트는 주로 두 그룹의 평균을 비교하는 데 사용되는 통계 검정입니다. 두 그룹이 서로 다른지 여부를 결정하기 위해 가설 검정에 자주 사용되는데, 언제, 어떤 유형의 t-test를 사용는지 알아보겠습니다. 2023.04.19 - [분류 전체보기] - t-분포(t-Distribution) t-분포(t-Distribution) t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을 minitistics.tistory.com t-test를 이해하기 위해 매뉴얼로 계산한다고 하면 z-test에서 정규분포표를 사용하였듯 t-table을 사용할 텐데요.. 2023. 4. 21.
t-분포(t-Distribution) t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을 형성하며, 평균 근처에 더 많은 관측치가 있고 꼬리부분이 두꺼운 것을 알 수 있어요(fat tail). 꼬리가 두껍다는 뜻은, 평균에서 먼 값, 즉 예상되는 값보다 훨씬 크거나 작은 값이 관찰될 확률이 높다는 뜻이 됩니다. 데이터 분포의 불확실성이 매우 크죠. t-분포가 작은 표본크기에 사용되는 분포이니만큼 예상된 결과라고 할 수 있습니다. 2023.04.01 - [Stats101] - 정규 분포(Normal Distribution) 정규 분포(Normal Distribution) 정규분포.. 2023. 4. 19.
Confusion Matrix Confusion matixs는 통계적 분류를 하는데에 있어, 모델의 성과를 측정하기 위한 직관적인 도구입니다. 위의 도표와 같이 실제 값과 예측값의 정확도 뿐만 아니라, 민감도, 특이도, 정밀도 등을 검사하여 모델 성능의 실제 영향을 전달하기 위한 최고의 시각적 자료 중 하나가 되죠. 기본적으로 어떤 사안이 맞다, 아니다라는 베이스를 얼마나 올바르게 맞다, 아니다로 예측하였는지를 보여주는데요, 2X2 매트릭스가 나오는걸 알 수 있습니다. 한국어로는 진양성, 진음성, 위양성(가양성), 위음성(가음성)이라고도 하는데 이 포스팅에서는 TP, TN, FP, FN으로 풀어가겠습니다. True Positives (TP - 진양성): 맞는 것을 맞다고 예측한 경우. True negatives (TN - 진음성) :.. 2023. 4. 17.
표준오차, 표본오차와 신뢰구간 앞서 표본 표준편차에는 왜 n-1을 할까? 에서 표본 집단과 표본 평균집단이 다르다는 점을 설명하였는데요, 표준편차와 표본오차가 헷갈릴 수 있을 것 같아 잠시 짚고 넘어가보겠습니다. 2023.04.12 - [Stats101] - 표본 표준편차에는 왜 n-1을 할까? 표본 표준편차에는 왜 n-1을 할까? 지난 포스팅 분산과 표준편차에서 분산과 표준 편차 구하는 공식과 함께 어떻게 표본 집단의 분산에 n-1을 취했을 때 모분산과 같아지는지 예시를 통해서 설명하였습니다. 이번 포스팅에서는 수 minitistics.tistory.com (1)표준편차(population standard deviation) : 모집단의 표준편차 (2)표본표준편차(sample standard deviation) : 표본의 표준편차 .. 2023. 4. 16.
반응형