글의 목표
1. 신뢰구간의 정확한 의미를 이해할 수 있다.
2. 신뢰구간을 해석할 때 어떻게 생각하고 접근해야 하는지를 알 수 있다
3. 가설검정 관점에서의 신뢰구간을 도입하여 설명이 가능하다.
4. 신뢰구간에서 흔히 발생할 수 있는 오해와 진실을 알 수 있다. (신뢰구간 안에 있을 확률?)
서론
이번 포스팅에서는 많은 사람들이 헷갈리고 어디에 어떻게 해석해야 할지 잘 모르는 '신뢰구간' 주제를 가져왔다.
통계학 추정이란?
통계학의 주요 목표는 추정이다. 특히, 우리가 일반적으로 사용하는 통계는 빈도주의 통계의 하위 분야인 모수 통계학으로, 여기에서는 모집단의 분포를 가정하고 평균, 분산과 같은 모수도 특정 값으로 정해져 있다고 가정한다. 우리가 평균, 분산을 구하는 것은 모두 모수(모집단)를 추정하는 행위이다.
모수를 추정 방법은 한 값(한 포인트)을 추정하는 점추정과, 어떤 구간 안에 우리가 추정하는 값이 있을 것이라는 구간 추정으로 나뉜다.
구간추정의 이유?
구간추정을 사용하는 이유는 점추정보다 모수의 불확실성을 더 잘 반영하기 때문이다. 불확실성을 구간(길이) 범위로 나타낸다. 이번 글에서는 구간추정이 무엇인지 그리고 사람들에게 어떤 오해를 불러 일으켰는지 어떻게 해석하면 되는지 알아보겠다.
본론
여기서도 정말 원론적인 질문으로 시작해서 원론적으로 접근해보도록 하자. 개념자체를 알리는 것도 중요하지만, 이 개념이 왜 등장했는지를 설명하는 것이 더 중요하다고 생각한다.
그런 의미에서 익숙한 예시를 하나 가져와보도록 하자.
Question
우리나라 성인 남성의 평균키를 물어봤을때 어떻게 접근할 수 있을까?
1. 표본을 30명 이상 뽑아서 평균을 구하는 방법. (점추정)
가장 먼저 생각나는 방법중 하나일 것이다. 표본을 뽑아서 하나의 값을 점추정 하는 방법이다. 이는 비교적 쉽게 받아들일 수 있을거라 생각한다.
2. ' 추정된 평균으로부터 ± (오차) : 범위'로 표현함으로써 불확실성을 반영하는 방법. (구간 추정)
두 번째 방법도 어떻게 보면 일상에서 많이 접한 개념일듯하다. 일반적으로 어떤 하나의 값으로 단정짓는 것 보다, 대략적인 범위를 제시하면서 이 안에 우리가 원하는 타겟 값이 존재할 거라는 기대감을 표현하곤 한다. 기계 공학에서는 공차, 날씨 온도, 요리 레시피 등 다양한 분야에서 오차라는 개념을 적용하고 있다.
이제부터 질문을 해 나가며, 개념의 필요성(당위성)에 대해 알아가보자.
2.1) 어떻게 오차 범위를 설정할까?
불확실성을 반영해서 (점추정에 오차를 넣어) 범위로 추정하겠다는건 알겠다. 그런데, 이 오차를 어떻게 어떤 기준으로 구할 것인가가 가장 큰 의문이다. 이에 대한 대답을 찾기 위해, 우리가 구하려는 모수(target)에서부터 어떻게 하면 모수를 포함시킬수 있을지를 생각의 시작점으로 가져가보도록 하자. 이번 예시에서는 모평균을 예시로 사용한다.
1. 우리가 추정하고자 하는 모평균(모수)의 분포를 정규분포라 가정하고 그려보도록 하자.
가정: 정규성 검정 통과
모분포(정규 분포)로부터 샘플링하여 얻은 표본 평균의 분포는 위와 같이 그려질 수 있다.
여기서 우리가 추정해야 하는 목표값은 µ (모평균)이다. 그리고 이 모평균 값이 우리가 추정하는 구간 사이에 포함되어야 하므로, 해당 모평균을 기준으로 포함하는 범위를 생각해보도록 하자.
나는 해당 분포에서 발견될 수 있는 95%정도의 값들이 모평균을 포함할 수 있었으면 좋겠어. 즉 그림1번에서 구간(Interval 1)사이에서 표본 평균이 발견되면 되겠네! (핵심 아이디어)
(필독) 본 글에서는 수학기호 표기가 어려운 점을 고려하여, 'X_bar n'을 '표본 평균n'으로, 'd_xbar_n'을 'dn'으로 간단히 표기하겠습니다. 설명을 이해하는 데에는 '참고1번. 표기법' 을 참고해 주시기 바랍니다.
2.2) 모집단을 포함하는 표본으로부터의 범위를 설정
위의 핵심 생각을 반영한 것이 그림 2이다. 그림 1에서 모평균으로부터 거리 2 x d (95% 발견 확률)의 경계값을 설정했으며, 왼쪽 경계는 표본 평균1, 오른쪽 경계는 표본 평균2, 라고 표기했다. 이때 모평균을 포함할 수 있는 구간이 되려면 d = d1 = d2가 되어야 한다. 그래야 표본 평균1, 표본 평균2로부터 모평균을 경계값으로 포함시킬수 있기 때문이다. 이러한 조건들이 충족되면, 표본 평균1과 표본 평균2 사이의 구간에서 어떤 값이 되더라도 모평균은 포함될 것이다.
예를 들어, 그림 3에서 경계값 내(Interval 1)에서 95% 확률 이내로 발견된 표본 평균3은 우리가 찾고자 하는 모평균을 포함하고 있다. 반면, 5% 확률 구간에서 발견된 표본 평균4의 경우, 모평균을 포함하지 않는 것을 확인 할 수 있다.
(참고로 위에서는 z-분포 기준으로 했지만, 표본을 가지고 한다면, t분포를 기준으로 구간추정을 하게된다)
신뢰구간 오차한계 신뢰수준 (용어 정의)
이때, 추정된 평균으로부터 ± d 의 구간을 신뢰구간이라 하고, ± 뒤의 d 값을 오차한계라고 부른다. 또한, 이때의 95% 확률을 신뢰수준이라고 부른다.
결론 요약
정리하자면, 모집단 분포에서 표본 평균이 발견될 수 있는 95%의 값들이 우리가 추정하고자 하는 모평균을 포함하도록 하기 위해, d = d1 = d2으로 설정한다. 이때 오차한계 d는 모분포에서 95% 신뢰구간의 양쪽 경계값에 해당하는 거리로(그림1 참고), 모평균을 중심으로 95%의 확률을 포함하는 구간을 의미한다.
이와 같은 흐름을 통해, 표본을 100번 뽑아 각각의 평균을 계산하고 신뢰구간을 구했을 때, 그 중 약 95개의 신뢰구간이 실제 모평균을 포함하게 된다는 결론을 도출할 수 있다.
'95% 신뢰수준(신뢰도)에서의 모평균의 신뢰구간을 구한다' 또는
'95% 신뢰구간을 구한다' 라고 한다
가설 검정관점에서의 신뢰구간
가설 검정에서 유의수준(α)을 0.05로 설정하는 것은 신뢰구간을 95%로 설정하는 것과 같은 맥락이라 볼 수 있다.
가설 검정을 설명할 때, 아래와 같이 핵심을 정리했었다.
정리하자면, 표본의 검정통계량(가설에 대한)이 일반적인 95%이내에 들어오면, 해당 가설은 채택되며, 5%의 극한 확률 영역에서 발견되면, 일반적이지 않다 판단하여 가설을 기각하게 된다.
그림3을 참고해서 보면, 표본의 결과가 상위 5%의 극단적인 확률 영역에 속할 경우, 해당 신뢰구간은 모집단의 값을 포함하지 않게 된다. 그래서 가설 검정에서는 표본 결과가 이러한 극단적인 영역에 위치하면 귀무가설을 기각하게 된다. 이는 신뢰구간의 개념을 통해 그 근거를 설명할 수 있다. 또한, 95% 신뢰구간 밖에 위치한 표본을 이상치(Outlier)로 간주하는 경우도 있다.
오해의 포인트 (신뢰 구간 안에 있을 확률?) - 중요
우리의 자연스러운 사고 방식에서는 '평균 ± (오차)'라는 신뢰구간 사이에 우리가 원하는 값이 존재할 확률을 생각하게 된다. 예를 들어, 우리나라의 평균 키를 표본으로 추출했을 때, 95% 신뢰수준에서 신뢰구간이 172cm ~ 176cm로 나왔다면, 많은 사람들은 우리나라 평균 키가 172cm와 176cm 사이에 있을 확률이 95%라고 해석할 수 있다.
하지만, 이러한 해석은 모수 통계학에서는 틀린 표현이다. 그 이유는 다음과 같다. 모수 통계학에서는 이미 고정된 하나의 값인 모평균(모수)이 존재하며, 우리는 이미 표본을 뽑아버렸다. 이 경우에는 더 이상 확률이 존재하지 않는다는 점이다.
내가 생각하는 오해의 이유
- 표현의 애매함
개인적으로 "95% 신뢰수준에서 신뢰구간을 구한다"는 문구가 오해를 일으킬 수 있다고 생각한다. 이 표현은 마치 신뢰구간 자체의 신뢰수준이 95%라고 느껴질 수 있다.
- 모수를 모르기 때문에 느끼는 착각의 확률 (왜 이미 뽑힌 표본의 신뢰구간이 확률을 갖는다고 느낄까?)
모수 통계학에서는 모수라는 고정된 진리가 존재한다고 가정한다. 그러나 실제로 모수는 우리가 알 수 없으며, 많은 경우 이를 알아내는 것이 불가능하다. 그렇기 때문에 우리는 표본을 추출하고, 그 절차에 따라 신뢰구간을 구하게 된다. 내가 추출한 표본의 신뢰구간이 모평균을 포함하는지는 이미 결정되어 있지만 (신은 알겠지), 우리는 그 사실을 알 수 없기 때문에 마치 확률처럼 느끼게 되는 것이다. (오해의 이유)
오해의 결론
- 표본 추출 전의 신뢰구간: 특정 표본이 뽑히기 전이라면, 표본을 뽑아서 신뢰구간을 구했을 때 해당 신뢰구간이 모평균을 포함할 확률은 95%라고 표현할 수 있다. 이 경우, 신뢰구간이 모평균을 포함할 가능성을 평가할 수 있다.
- 표본 추출 후의 신뢰구간: 특정 표본이 뽑힌 후에는 이미 확률이 존재하지 않는다 (모수 고정, 표본 신뢰구간 고정). 따라서 신뢰구간이 모평균을 포함할 확률은 95%라는 표현은 틀리다.
[신뢰수준 95%를 기준 : 98%, 99%도 가능하다]
일반적으로 사람들은 표본을 추출한 후 그 결과에 대해 확률적으로 접근하기 때문에, 위의 두 번째 경우(표본 추출 후의 신뢰구간)에서 오해가 발생할 수 있다. 따라서 다음과 같이 해석해보도록 하자.
이미 표본이 추출된 상태에서는 해당 표본이 95% 신뢰구간에 포함되는지 5% 신뢰구간에 포함되는지를 알 수 없다. 그러나 '100번 중 95번의 표본에 대한 신뢰구간이 모집단을 포함하는' 분포에서 추출된 표본의 신뢰구간 중 하나라는 점을 인식하는 것이다. 그리고 신뢰구간 사이에 모수가 있기를 기대하는 것이다.
(번외) 사람들의 사고에 더 맞는 통계학적 믿음 : 베이지안 통계학
반면에 베이지안 통계학에서는 모수가 고정되어 있지 않고, 사전 확률 분포에 따라 사후 확률 분포가 변한다. 이때 모수는 확률변수로 취급되므로, 표본을 뽑더라도 신뢰구간 사이에 있을 확률이 95%라는 표현이 성립한다. 결국, 사람들이 더 쉽게 받아들이는 것은 믿음과 신뢰를 기반으로 하는 베이지안 통계학인 것 같다.
어쩌면 이는 당연한 사실이다. 우리 중 누구도 모수(진실, 진리)를 알고 살아가는 사람은 없다. 우리는 모두 믿음을 가지고 이를 증명하며 살아가고 있고, 이런 과정에서 표본(경험)에 따라 믿음을 수정해 나가는 것이 인간 삶의 본질이 아닐까 생각한다. 이러한 맥락에서 베이지안 통계학은 휴리스틱한 측면을 잘 반영하고 있다고 생각한다.
참고 문헌
1. 통계학 기본(입문) 수업 - 자유아카데미 (전공서적)
2. 내가 이해한 직관 (전공서적 다독하면서)
'데이터분석-통계 > 통계학의 본질 이론' 카테고리의 다른 글
중심극한 정리 (Central Limit Theorem) : 정의 및 실험 & 용도 (0) | 2024.11.03 |
---|---|
평균치 검정 : t검정 [One, Two(Student's & Welch's), Paired Samples t-test] (0) | 2024.11.03 |
가설검정 이해: 검정통계량, 귀무가설, 대립가설, p-value, 유의수준 (significance level), 임계값 (critical value) 개념 정리 (본질) (0) | 2024.10.06 |
자유도(Degree Of Freedom)란 & 모분산 추정과 자유도 (n-1) (0) | 2024.09.30 |
불확실성, 변동성, 분산 (feat 확률의 본질) (0) | 2024.09.30 |