모의고사[답변완료] 신뢰수준이 높으면 표본오차가 증가한다고 하는데

탈퇴한 회원
2021-08-27
조회수 7267


  • 회차/도서명 : 제19회 파이널 모의고사
  • 페이지번호 : 2회차


질문 : 

신뢰수준이 높은데 왜 오차가 증가하는지가 궁금합니다!
일반적으로 생각했을 때는 오차가 줄어들거란 생각이 드는데 설명 부탁드립니다.


답변 : 

회원님, 

수험생들이 가장 많이 하는 질문입니다. 

신뢰수준, 신뢰구간, 표본오차에 대해 종합적으로 이해하셔야 합니다. 

신뢰수준이라는 것은 모집단의 특성을 파악하기 위해 표본을 추출해서 얻어진 결과가 모집단의 특성을 얼마나 정확하게 반영하고 있는가, 그 결과는 얼마나 신뢰할만한가를 나타내는 정도를 말합니다. 

다시 말하면 표본에서 얻어진 결과가 모집단을 조사했을 때 얻어지는 결과와 동일할 확률을 말하는 것입니다. 

표본의 통계치를 바탕으로 모수의 범위를 추정할 때 보통 모수가 얼마부터 얼마 사이의 값을 가질 확률은 00%이다라고 말합니다. 이때 이 범위(얼마부터 얼마 사이)를 신뢰구간이라고 하고 모수가 신뢰구간 내에 있을 확률을 신뢰수준이라고 합니다. 

예를 들어 대한민국 국민의 평균키가 얼마인지를 조사해본다고 가정해 보겠습니다. 

실제로 대한민국 국민의 키를 하나하나 조사해서 평균을 낸다면 가장 정확한 조사결과가 될 것입니다. 

하지만 현실적으로 그렇게 하는 것은 불가능하기 때문에 표본을 추출해서 전체 모집단의 키를 추정하게 됩니다. 표본에서 도출된 모집단의 평균 신장이 170cm이고 여기서 신뢰수준이 95%, 표본오차는 2cm라고 결과가 나왔다고 한다면 이 의미는 모집단인 대한민국 전체 국민들의 평균키는 170cm를 중심으로 2cm 위 아래로 168cm부터 172cm일 확률이 95%라는 것을 말합니다. 

만일 대한민국 전체 국민 중에서 아무나 300명씩 뽑아서 평균키를 100번 쟀다고 했을 때 100번 중에서 95번이 168cm에서 172cm 사이에 위치한 결과가 나왔다고 합시다. 이 경우 단 5번의 경우만을 제외하고 모든 키가 170cm를 중심으로 위아래 2cm 차이로 퍼져 있습니다. 

이 때 모집단의 평균키는 170cm라고 추정할 수 있고, 이때의 신뢰수준은 95%, 오차는 2cm, 신뢰구간은 168cm~172cm라고 이야기합니다. 즉, 300명씩 100번의 표본추출을 해서 나온 100개의 평균키들 중에서 95번 이상은 168에서 172 사이에 들어있다는 것입니다. 그런데 조금 더 신뢰수준을 높이고 싶어서 신뢰 수준을 99%로 올리면 오차범위가 좀 더 넓어지게 됩니다. 

예를 들어 300명씩 100번의 표본을 추출해서 각각의 경우의 평균키 중에서 99개가 모집단의 평균으로 인정받을 수 있기 위해서는 아까 신뢰 수준 95%에서의 168cm~172cm사이의 범위보다 넓은 범위를 잡아야 할 것입니다. 

오차는 3cm로 커지면서 167cm~173cm로 신뢰구간은 넓어지지만 그만큼 표본에서 나온 평균키가 그 범위 안으로 들어갈 확률이 더 높아진 것입니다. 아까 신뢰수준 95%인 경우 제외되었던 5번의 경우 중에 4번의 경우가 새롭게 모집단의 평균키 추정 구간, 즉 신뢰구간으로 들어오게 된 것입니다. 그렇기 때문에 신뢰수준을 높게 잡으면 오차는 자연스럽게 커질 수밖에 없습니다. 

신뢰구간의 정의는 위에서 잠깐 설명을 드렸는데 다시 한 번 말씀을 드리면 모집단의 모수, 위의 예에서는 대한민국 전체 국민들의 평균 신장이 되겠지요? 이 모수가 일정한 확률, 즉 신뢰수준을 말합니다(95%나 99%가 일반적으로 사용되는 신뢰수준입니다.) 

이 확률 안에서 갖게 될 값의 범위를 의미하는 것입니다. 만일 95% 라고 하면, 신뢰구간은 모집단의 모수(대한민국 전체 평균신장)가 일정한 확률(신뢰수준 95%) 안에서 갖게 될 범위의 값(168~172)을 말합니다. 표본의 크기를 크게 하면 오차는 그만큼 줄어들게 됩니다. 대한민국 전체 평균키를 재야하는 경우 100명의 평균키로 추정하는 경우보다 1000명의 평균키로 추정하는 것이 원래 측정하려고 했던 모수치(대한민국 국민 평균키)에 더 가깝게 됩니다. 표본의 수가 크면 클수록 오차가 줄어들게 되는 것이지요. 

예를 들자면, 대한민국 전체 국민을 모두 측정해서 나온 평균키가 170이라고 할 때, 100명의 평균키는 165이었고 1000명의 평균키는 168이었다고 보면 오차가 5cm에서 2cm로 줄어들게 된 것입니다. 표본의 수가 적으면 특정 집단의 성향이 과대하게 반영되어 전체 모집단의 결과를 반영하는 게 쉽지 않을 수 있습니다. 그렇기 때문에 표본의 수는 많으면 많을수록 정확한 결과를 도출할 수 있게 됩니다. 

그만큼 오차가 적은 결과를 얻을 수 있다는 것입니다. 신뢰수준과 신뢰구간의 경우 예를 들어 신뢰수준을 높게 잡으면 신뢰구간은 상대적으로 분산되고(신뢰구간의 범위가 넓어지고) 신뢰구간을 집중시키면(신뢰구간의 범위가 좁아지면) 신뢰수준은 상대적으로 낮아지게 됩니다. 

여기서 신뢰수준, 신뢰구간에 따라서 표본오차가 결정된다기보다는 표본오차는 신뢰구간에 영향을 미친다고 표현합니다. 표본오차가 클수록 신뢰구간이 커지게 됩니다. 다시 말하면, 신뢰수준이 클수록 신뢰구간이 넓어지고, 표본오차가 커질 수 있습니다. 

또한 동일한 신뢰수준 또는 표본오차에서는, 신뢰구간이 좁게 나타날수록 좋은 추정치라고 할 수 있습니다. 신뢰수준을 높이면 표집오차가 작아진다고 오해할 수 있지만, 신뢰수준과 표본의 크기 간에 비례적인 관계는 성립하는 것은 아니라는 점에 유의할 필요가 있습니다. 

쉽지 않은 개념이기 때문에 추가적인 질문이 있으실 거에요. 

언제든지 질문해주세요. 감사합니다.