본문 바로가기

통계 & 데이터분석/Stats10124

시계열분석 - ARIMA (AirPassengers) NOTE Trend(추세): 방향성(하향, 상향) Seasonality(계절성): 시기적(계절적)으로 반복적인 패턴을 나타냄. 주로 단기. Cycle(주기): 주로 장기. 주기성이 있으나 추세나 계절성이 없으면 정상성을 나타내는 시계열에 해당. Stationarity(정상성): 시계열의 평균, 분산 및 공분산이 모두 시간의 변화에 관계없이 일정. 주로 추세나 계절성을 보이지 않는 시계열을 white noise로 정상성을 보이는 시계열이라 할 수 있음. ACF 그래프를 사용하거나, Dickey-Fuller 검정 사용. ACF(Auto-Correlation Function): 정상성을 나타내지 않는 데이터에서는 ACF가 느리게 감소하지만, 정상성을 나타내는 시계열에서는, ACF가 비교적 빠르게 0으로 떨어짐.. 2023. 5. 24.
베이지안 이론(Bayes' theorem ) 하늘에 구름이 있는 경우 비가 올 확률은 얼마일까? P(A): 비가올 확률 P(B): 구름이 있을 확률 P(B|A): 비가올 때, 구름이 있을 확률 P(A|B): 구름이 있을 때, 비가올 확률 P(A와 B의 교집합)은 비가오는데, 구름도 있는 확률 위의 식은, 구름이 있을 때 비가올 확률은, 구름이 있을 때 비도오고 구름이 있던 확률과 같다는 뜻이 됩니다. 이를 이용하여, 베이지안 룰을 도출해보겠습니다. 위의 베이지안 룰을 적용한 베이지안 추론을 동전 던지기의 예로 알아보겠습니다. 공평한 동전(theta=0.5)이 주어졌을 때 8번 뒤집기(8번 베르누이 시행)에서 3번의 앞면을 볼 확률은 얼마일까? P(D|theta) 이 무엇인지 묻는 것으로, 위의 베이지안 룰에서 P(B|A)에 해당합니다. theta의.. 2023. 5. 21.
중심 극한 정리(Central Limit Theorem) feat. 주사위 굴리기 중심 극한 정리(Central Limit Theorem)는 모집단 분포가 정규 분포가 아니더라도, 표본 크기가 충분히 크면 표본 평균의 분포가 정규 분포를 이룬다는 이론입니다. 표본 평균의 분포가 이루는 기댓값과 변동성을 표준오차 부분에서 알아보았는데요, 다시 간단히 정리하면 표본 평균집단의 평균은 모집단의 평균(μ)와 같고, 표본 표준편차는 모집단의 표준편차를 표본의 크기로 나눈 값과 같습니다. 2023.04.16 - [Stats101] - 표준오차, 표본오차와 신뢰구간 표준오차, 표본오차와 신뢰구간 앞서 표본 표준편차에는 왜 n-1을 할까? 에서 표본 집단과 표본 평균집단이 다르다는 점을 설명하였는데요, 표준편차와 표본오차가 헷갈릴 수 있을 것 같아 잠시 짚고 넘어가보겠습니다. (1)표준 miniti.. 2023. 5. 5.
균일분포(Uniform Distribution) 균일 분포는 모든 결과가 발생할 가능성이 동일한 확률 분포입니다. 균일분포는 데이터 특성에 따라 이산형(Discrete)과 연속성(Continuous) 분포로 나뉠 수 있습니다. 이산형 균일 분포(Discrete Uniform Distribution) 발생할 가능성이 동일한 이산형 균일 분포의 대표적인 예로는, 동전을 던졌을 때 앞/뒤가 나오는 경우, 혹은 주사위를 던졌을 때 일정 숫자가 나오는 경우입니다. 공정한 동전의 경우, 앞 또는 뒤가 나올 확률(1/2)이 동일하고, 공정한 6면체 주사위의 경우 1, 2, 3, 4, 5 또는 6이 나올 확률(1/6)이 동일합니다. 또한 두 경우 모두 각각의 결과(동전 던지기 - 앞, 뒤, 주사위 던지기- 1,2,3,4,5,6)가 있어 이산형 결과를 나타냅니다. 이.. 2023. 5. 3.
이항분포(Binomial Distribution) 이항분포 하면 가장 대표적인 예시가 동전 던지기입니다. 동전을 10번 던졌을 때, 앞면이 6번 나올 확률이 얼마인가? 와 같은 질문을 대답할 때, 이항분포를 사용합니다. 동전 앞면이 나왔을 때를 성공(1), 뒷면을 실패(0)라고 가정하기 때문에, 이항 분포는 우리가 지금까지 보아왔던 정규분포, 카이제곱 분포 등과 같은 연속 분포와 달리 이산 분포로 분류됩니다. 이항 분포의 기본 가정은 각 시도에 대해 하나의 결과(1 아니면 0)만 있고, 각 시도는 동일한 성공 확률을 가지며, 독립적이라는 것입니다. 식으로 나타내어보면 다음과 같습니다. n: 시행 횟수 r: 성공횟수 p: 성공할 확률 동전의 앞면과 뒷면이 나올 확률은 각각 0.5로, 매번 던질 때마다 이전 결과가 다음 결과에 영향을 미치지 않으므로 독립적.. 2023. 5. 2.
자유도(Degrees of freedom) 우리가 앞서 t분포와 카이제곱 분포에 대해 정리하면서 자유도라는 개념을 접했는데요. 자유도(Degree of Freedom)는 말 그대로, 자유로운 정도를 나타냅니다. 도대체 데이터에서 자유로운 정도라니, 무슨 뜻일까요? 2023.04.19 - [분류 전체보기] - t-분포(t-Distribution) t-분포(t-Distribution) t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을 minitistics.tistory.com 2023.04.30 - [Stats101] - 카이제곱 분포(Chi-square distribution) 카이.. 2023. 5. 1.
카이제곱 분포(Chi-square distribution) 카이제곱 분포의 모양은 자유도(k)에 의해 결정됩니다. 카이제곱 분포를 따르는 실제 생활의 데이터는 잘 없다고 알려져있는데요, 카이제곱 적합도 검정과 카이제곱 독립 검정을 포함한 가설 검정에 널리 사용되고 있습니다. 즉, 카이제곱 분포의 주요 목적은 실제 분포를 설명하는데에 있다기 보다는, 데이터가 특정 분포를 따르는지, 혹은 데이터의 두 변수가 서로 독립적인지 종속적인지 알아보는 가설 검정에 사용하는 분포입니다. 2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 2023.04.29 - [Stats101] - 카이제곱 독립성 검정 - Test of Independence 카이제곱 독립성 검정 - Test of Independe.. 2023. 4. 30.
카이제곱 독립성 검정 - Test of Independence 카이제곱 적합도 검정에 이어, 이번에는 카이제곱 독립 검정(Chi-square Test of Independence)를 알아보도록 하겠습니다. 우리가 적합도 검정에서는 m&m 초콜릿 색깔 분포로, 하나의 범주형 변수가 있을 때 사용하였는데요, 카이제곱 독립 검정은 두 개의 범주형 변수가 있을 때 사용합니다. 즉, 이 두 변수의 관계가 독립적인가 아닌가에 대한 가설을 검정하는 것이죠. 우리가 테스트하는 가설은 다음과 같습니다. 2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱(chi^2) 적합도 검정(Goodness of fit test).. 2023. 4. 29.
 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱(chi^2) 적합도 검정(Goodness of fit test)은 우리가 여태까지 배워온 t검정, 분산분석과 같은 가설검정입니다. 즉, 샘플을 기반으로 모집단 분포에 대한 결론을 도출하는데요, 카이 제곱의 적합도 테스트를 사용하여 모집단이 해당 분포를 따른다는 결론을 내릴 만큼 적합도가 충분히 좋은가의 여부를 테스트할 수 있습니다. 카이제곱 적합도 검정은 통계 모델이 일련의 관찰에 얼마나 잘 맞는지 알려줍니다. 적합도가 높으면 모델을 기반으로 예상되는 값이 관측값에 가깝고, 반대로 적합도가 낮으면 모델을 기반으로 예상되는 값이 관측값과 멀리 떨어져 있겠죠. 그렇다면 언제 카이제곱 적합도 검정을 사용할 수 있을까요? 범주형 변수: 하나의 범주형 변수에 대한 분포를 따르는지의 가설 검정이므로, 범주.. 2023. 4. 28.
AIC(Akaike Information Criterion) AIC(Akaike Information Criterion)는 모델이 데이터에 얼마나 잘 맞는지 평가하기 위한 방법입니다. 이원 분산분석에서 다루었듯, AIC를 이용하여 다양한 모델을 비교하고 데이터에 가장 적합한 모델을 결정할 수 있는데요, AIC 수식을 외울 필요는 없지만, AIC 결과를 해석하는데에 있어 어떻게 만들어진 식인지 살짝 나타내어보면 아래와 같습니다. AIC = 2K - 2ln(L) K는 모델을 구축하는데 사용되는 독립 변수의 수 (이원 분산분석의 예로 들자면 체중감량 프로그램 + 성별), 그리고 L은 Likelihood의 약자로, 해당 모델을 이용하였을 때, 데이터를 얼마나 잘 재현하는지(즉, 모델이 관찰된 종속변수(y) 값을 생성할 수 있는 가능성)를 나타내는 값 입니다. 이 log .. 2023. 4. 25.
반응형