본문 바로가기

전체 글46

R(R-studio)과 Github 연동하는 법(step by step) 요즘 맥북 스크린이 검정 화면이 되었다가 다시 정상으로 돌아오곤 하는데, 이러다가 곧 검정에서 아예 돌아오지 않을 수도 있겠다는 생각을 한다. 이런 때일 수록, 코드는 Github에 그때그때 저장을 해두는게 안전할테니, 오늘 새로운 repository를 생성하면서 어떻게 R-studio와 Github을 연결하는지 정리해보았다. 1. 먼저 Github에서 계정을 생성한다: Github 웹페이지에 들어가서 Sign up 누르고 이메일 주소, 아이디 등등 그대로 따라서 만들면 되니 각 페이지의 스크린샷은 생략. 2. R-studio: Tools > Global Options > Git/SVN 으로 들어가서 git이 저장된 파일 directory가 맞는지 확인해주고, create SSH Key를 클릭하여 키를 .. 2023. 7. 2.
ggplot2 scatterplot 기초 1. DATA CPS85: R의 mosaicData pacakage에 있는 CPS85데이터를 사용합니다. CPS는 The Current Population Survey의 약자로, 인구 조사(census)를 하는 기간 사이에 정보를 보완하는 데 사용됩니다. 이 데이터는 성별, 교육 기간, 경력 기간, 직업 상태, 거주 지역 및 조합원 자격을 포함하여 근로자의 임금 및 기타 특성에 대한 정보와 함께 무작위 표본으로 구성됩니다. 2. Exploratory Analysis 시각화 전 Exploratory analysis는 필수. # load data data(CPS85 , package = "mosaicData") # basic ggplot ggplot(data = CPS85, mapping = aes(x = .. 2023. 5. 26.
시계열분석 - ARIMA (AirPassengers) NOTE Trend(추세): 방향성(하향, 상향) Seasonality(계절성): 시기적(계절적)으로 반복적인 패턴을 나타냄. 주로 단기. Cycle(주기): 주로 장기. 주기성이 있으나 추세나 계절성이 없으면 정상성을 나타내는 시계열에 해당. Stationarity(정상성): 시계열의 평균, 분산 및 공분산이 모두 시간의 변화에 관계없이 일정. 주로 추세나 계절성을 보이지 않는 시계열을 white noise로 정상성을 보이는 시계열이라 할 수 있음. ACF 그래프를 사용하거나, Dickey-Fuller 검정 사용. ACF(Auto-Correlation Function): 정상성을 나타내지 않는 데이터에서는 ACF가 느리게 감소하지만, 정상성을 나타내는 시계열에서는, ACF가 비교적 빠르게 0으로 떨어짐.. 2023. 5. 24.
베이지안 이론(Bayes' theorem ) 하늘에 구름이 있는 경우 비가 올 확률은 얼마일까? P(A): 비가올 확률 P(B): 구름이 있을 확률 P(B|A): 비가올 때, 구름이 있을 확률 P(A|B): 구름이 있을 때, 비가올 확률 P(A와 B의 교집합)은 비가오는데, 구름도 있는 확률 위의 식은, 구름이 있을 때 비가올 확률은, 구름이 있을 때 비도오고 구름이 있던 확률과 같다는 뜻이 됩니다. 이를 이용하여, 베이지안 룰을 도출해보겠습니다. 위의 베이지안 룰을 적용한 베이지안 추론을 동전 던지기의 예로 알아보겠습니다. 공평한 동전(theta=0.5)이 주어졌을 때 8번 뒤집기(8번 베르누이 시행)에서 3번의 앞면을 볼 확률은 얼마일까? P(D|theta) 이 무엇인지 묻는 것으로, 위의 베이지안 룰에서 P(B|A)에 해당합니다. theta의.. 2023. 5. 21.
중심 극한 정리(Central Limit Theorem) feat. 주사위 굴리기 중심 극한 정리(Central Limit Theorem)는 모집단 분포가 정규 분포가 아니더라도, 표본 크기가 충분히 크면 표본 평균의 분포가 정규 분포를 이룬다는 이론입니다. 표본 평균의 분포가 이루는 기댓값과 변동성을 표준오차 부분에서 알아보았는데요, 다시 간단히 정리하면 표본 평균집단의 평균은 모집단의 평균(μ)와 같고, 표본 표준편차는 모집단의 표준편차를 표본의 크기로 나눈 값과 같습니다. 2023.04.16 - [Stats101] - 표준오차, 표본오차와 신뢰구간 표준오차, 표본오차와 신뢰구간 앞서 표본 표준편차에는 왜 n-1을 할까? 에서 표본 집단과 표본 평균집단이 다르다는 점을 설명하였는데요, 표준편차와 표본오차가 헷갈릴 수 있을 것 같아 잠시 짚고 넘어가보겠습니다. (1)표준 miniti.. 2023. 5. 5.
균일분포(Uniform Distribution) 균일 분포는 모든 결과가 발생할 가능성이 동일한 확률 분포입니다. 균일분포는 데이터 특성에 따라 이산형(Discrete)과 연속성(Continuous) 분포로 나뉠 수 있습니다. 이산형 균일 분포(Discrete Uniform Distribution) 발생할 가능성이 동일한 이산형 균일 분포의 대표적인 예로는, 동전을 던졌을 때 앞/뒤가 나오는 경우, 혹은 주사위를 던졌을 때 일정 숫자가 나오는 경우입니다. 공정한 동전의 경우, 앞 또는 뒤가 나올 확률(1/2)이 동일하고, 공정한 6면체 주사위의 경우 1, 2, 3, 4, 5 또는 6이 나올 확률(1/6)이 동일합니다. 또한 두 경우 모두 각각의 결과(동전 던지기 - 앞, 뒤, 주사위 던지기- 1,2,3,4,5,6)가 있어 이산형 결과를 나타냅니다. 이.. 2023. 5. 3.
이항분포(Binomial Distribution) 이항분포 하면 가장 대표적인 예시가 동전 던지기입니다. 동전을 10번 던졌을 때, 앞면이 6번 나올 확률이 얼마인가? 와 같은 질문을 대답할 때, 이항분포를 사용합니다. 동전 앞면이 나왔을 때를 성공(1), 뒷면을 실패(0)라고 가정하기 때문에, 이항 분포는 우리가 지금까지 보아왔던 정규분포, 카이제곱 분포 등과 같은 연속 분포와 달리 이산 분포로 분류됩니다. 이항 분포의 기본 가정은 각 시도에 대해 하나의 결과(1 아니면 0)만 있고, 각 시도는 동일한 성공 확률을 가지며, 독립적이라는 것입니다. 식으로 나타내어보면 다음과 같습니다. n: 시행 횟수 r: 성공횟수 p: 성공할 확률 동전의 앞면과 뒷면이 나올 확률은 각각 0.5로, 매번 던질 때마다 이전 결과가 다음 결과에 영향을 미치지 않으므로 독립적.. 2023. 5. 2.
자유도(Degrees of freedom) 우리가 앞서 t분포와 카이제곱 분포에 대해 정리하면서 자유도라는 개념을 접했는데요. 자유도(Degree of Freedom)는 말 그대로, 자유로운 정도를 나타냅니다. 도대체 데이터에서 자유로운 정도라니, 무슨 뜻일까요? 2023.04.19 - [분류 전체보기] - t-분포(t-Distribution) t-분포(t-Distribution) t-분포란? t-분포 Student's t-distribution 이라고도 알려져있는데요, 모집단의 분산을 알 수 없는 더 작은 표본 크기에 사용되는 정규 분포 유형입니다. t분포를 그려보면 정규분포와 같이 종 모양을 minitistics.tistory.com 2023.04.30 - [Stats101] - 카이제곱 분포(Chi-square distribution) 카이.. 2023. 5. 1.
카이제곱 분포(Chi-square distribution) 카이제곱 분포의 모양은 자유도(k)에 의해 결정됩니다. 카이제곱 분포를 따르는 실제 생활의 데이터는 잘 없다고 알려져있는데요, 카이제곱 적합도 검정과 카이제곱 독립 검정을 포함한 가설 검정에 널리 사용되고 있습니다. 즉, 카이제곱 분포의 주요 목적은 실제 분포를 설명하는데에 있다기 보다는, 데이터가 특정 분포를 따르는지, 혹은 데이터의 두 변수가 서로 독립적인지 종속적인지 알아보는 가설 검정에 사용하는 분포입니다. 2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 2023.04.29 - [Stats101] - 카이제곱 독립성 검정 - Test of Independence 카이제곱 독립성 검정 - Test of Independe.. 2023. 4. 30.
카이제곱 독립성 검정 - Test of Independence 카이제곱 적합도 검정에 이어, 이번에는 카이제곱 독립 검정(Chi-square Test of Independence)를 알아보도록 하겠습니다. 우리가 적합도 검정에서는 m&m 초콜릿 색깔 분포로, 하나의 범주형 변수가 있을 때 사용하였는데요, 카이제곱 독립 검정은 두 개의 범주형 변수가 있을 때 사용합니다. 즉, 이 두 변수의 관계가 독립적인가 아닌가에 대한 가설을 검정하는 것이죠. 우리가 테스트하는 가설은 다음과 같습니다. 2023.04.28 - [Stats101] - 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱 적합도 검정(feat. m&m) - Goodness of fit test 카이제곱(chi^2) 적합도 검정(Goodness of fit test).. 2023. 4. 29.
반응형