본문 바로가기

데이터분석-통계/통계학의 본질 이론6

중심극한 정리 (Central Limit Theorem) : 정의 및 실험 & 용도 글의 목차중심 극한 정리란 무엇인가?중심 극한 정리에 대한 실험 (Python으로 실행)중심 극한 정리의 의미 (사용 용도) 중심 극한 정리란?  중심극한정리는 표본의 크기가 충분히 클 경우, 모집단의 분포가 무엇이든 간에 표본 평균의 분포가 정규분포에 근접하게 된다는 이론이다.   그림 1은 어떤(임의의) 분포에서 X 데이터를 추출하더라도 표본의 크기 n이 커질수록 표본 평균의 분포는 정규분포에 가까워진다는 것을 보여주고 있다. 이 표본 평균의 분포는 아래와 같이 표현된다. 샘플링 과정부터 세세하게 보도록 하자.  모집단으로부터 샘플링한 횟수를 M이라 하고, 한 번에 샘플링한 크기(표본 개수)를 N이라고 해보자.샘플링 횟수를 500으로 고정하고, 샘플링 크기를 N=1 부터 N=30, 300, 3000까.. 2024. 11. 3.
평균치 검정 : t검정 [One, Two(Student's & Welch's), Paired Samples t-test] 글의 목차평균치 검정의 당위성 (왜 필요한가? feat 불확실성/변동성)평균치 검정에 대한 정의 및 이해 평균치 검정에 대한 가정 (정규성, 등분산성:Two Samples t-test)평균치 검정의 종류 및 실제 계산 예시 혹시, Python으로 SciPy Library로 직접 구현하는 파트를 원하시면, 오른쪽 링크에 연결해 놓았습니다. 링크 평균치(t) 검정 t test 구현 [One, Two, Paired Samples t-test : Python feat. SciPy & Statsmodels]글의 목차Python생태계의 통계 LibrarySciPy, Statsmodels의 차이점SciPy에서의 평균치 검정(t-test) 사용법 (feat 이론편의 예시 그대로 구현)One sample t-testTw.. 2024. 11. 3.
신뢰 구간(Confidence Interval)의미와 직관 그리고 오해 : 구간 추정, 신뢰 수준, 오차 한계, 신뢰도 95%의 개념 글의 목표1. 신뢰구간의 정확한 의미를 이해할 수 있다.2. 신뢰구간을 해석할 때 어떻게 생각하고 접근해야 하는지를 알 수 있다3. 가설검정 관점에서의 신뢰구간을 도입하여 설명이 가능하다. 4. 신뢰구간에서 흔히 발생할 수 있는 오해와 진실을 알 수 있다. (신뢰구간 안에 있을 확률?)  서론이번 포스팅에서는 많은 사람들이 헷갈리고 어디에 어떻게 해석해야 할지 잘 모르는 '신뢰구간' 주제를 가져왔다. 통계학 추정이란? 통계학의 주요 목표는 추정이다. 특히, 우리가 일반적으로 사용하는 통계는 빈도주의 통계의 하위 분야인 모수 통계학으로, 여기에서는 모집단의 분포를 가정하고 평균, 분산과 같은 모수도 특정 값으로 정해져 있다고 가정한다. 우리가 평균,  분산을 구하는 것은 모두 모수(모집단)를 추정하는 행위.. 2024. 10. 13.
가설검정 이해: 검정통계량, 귀무가설, 대립가설, p-value, 유의수준 (significance level), 임계값 (critical value) 개념 정리 (본질) 글의 목표1. 가설검정이 무엇인지 직관적으로 이해할 수 있다2. 검정통계량이 왜 도입됐는지 그리고 무엇인지를 이해할 수 있다.3. 귀무가설, 대립가설에 대한 정확한 정의를 알 수 있다.4. p-value, 유의수준, 임계값에 대한 정확한 개념을 이해할 수 있다.5. 최종적으로 가설검정에 있어 위의 용어들이 어떻게 매핑되고 사용되는지 알 수 있다. 가설검정이란? 통계학에서의 가설검정은 모집단(전체 집단)에 대한 어떤 주장(가설)을 세우고, 표본(부분 집단)을 관찰하여 그 주장이 맞는지 틀린지 판단하는 방법이다.   본론 (스토리 : 평균치 검정 One-sample t-test 예시)* 요약된 결론만 보고싶다면 마지막, 결론만 봐도 된다 * 위에서 정의한 가설검정이 무엇인지 직관적인 그림으로 한 번 나타내보.. 2024. 10. 6.
자유도(Degree Of Freedom)란 & 모분산 추정과 자유도 (n-1) 여담 최근 데이터분석 플랫폼을 만들면서 2019년, 2020년 학부 인턴과 대학원 시절에 했었던 데이터 분석을 다시 한 번 상기시키면서 정리하는 글입니다. 또한 기존에 잘 알지 못했던 자유도 개념을 정리하는 글입니다. 글의 목표이번 포스팅에서는 모수통계학에서의 모분산 추정과 자유도 관련해서 얘기해보고자 한다.이번 글을 읽고나면 이해가 가야할 포인트를 다음과 같이 정리할 수 있다.1) 자유도의 개념2) 표본에서의 모집단 분산 추정량에서 n-1로 나누는 이유 - 과소추정량의 관점의 설명    : n-1로 나눈 이유를 모집단 분포에서의  - 자유도의 관점의 설명 (분산에 대한 본질적 의미의 이해)    : 표본에서의 분산 추정량에서 자유도로 나눈 이유와 그에 대한 본질을 이해할 수 있다  본론 위의 수식1과 .. 2024. 9. 30.
불확실성, 변동성, 분산 (feat 확률의 본질) 불확실성, 변동성 그리고 분산 이 글을 목표는 확률의 본질에 대해서 불확실성, 변동석, 분산의 개념으로 설명하려고 한다.  위 개념에 대해서, 대학교 통계학 수업을 들었을때 깊은 고민을 많이 했으며, 그 당시 정리된 생각을 녹여내어 글을 작성했다. 1. 불확실성이란? 내가 똑같은 수행을 하더라도 통제할 수 없는 어떠한 변인 때문에 계속 다른 결과가 나오게 하는 주요 원인이다. (확률이 존재할 수 있게 하는 근본적인 원인이라 볼 수 있다)  예를 들어, 내가 종이 비행기를 똑같은 힘으로 똑같은 방향으로 10번 수행했다. 과연 그 종이 비행기는 10번 모두 똑같은 지점에 떨어질까? 아니다. 거기에는 바람과 같은 우리가 통제할 수 없는 변수들이 들어가 계속해서 결과는 달라질 것이다.  2. 변동성이란? 여기서.. 2024. 9. 30.