본문 바로가기
카테고리 없음

통계학 9. 통계학 구간추정: 추정의 오류 관리2

by 소곤소곤정보 2021. 6. 26.

z값(Z2)
정규 분포에서 확률은 연속확률변수인 면적으로서 계산되며 정규 분포 면적확률이 0.95가 되기 위해서는 평균의 양측 약 2단위(P(±1.96)=0.95가 된다. 따라서 0.95 확률의 중간 구간(Z1-)은 반복 추정에서의 매개 변수의 성공 추정에 해당하고, 0.025 확률의 두 구간(Z2)은 반복 추정에서의 매개 변수 없음 추정에 해당한다.

여기서, z-value(Z2)[17] 는, z-value(Z2)[17] 와 일치할 확률이 95%신뢰 수준과 일치하도록 두 개의 정규 분포 부호를 가진다. 신뢰수준이95%가아닌99%로큰경우z값도2.58로커져서간격이넓어집니다. 구간을 안전하게 확대해야 자신감 수준의 장벽이 높기 때문이다. 반대로 신뢰도를 90%로 설정하면 z값이 1.65로 감소하고 간격이 좁아집니다. 신뢰 수준이 완화되고 간격을 좁히는 정확한 추정치도 부담이 적기 때문이다. 위의 정확한 추정치와 안전한 추정치 사이의 줄타기에 대한 언급은 이 논리를 보여준다. 신뢰 수준은 추정치가 만족해야 할 정도를 예견한다. 그 후 추정치는 신뢰수준을 충족하는 한 추정치를 가능한 한 정확하게 하기 위해 간격을 좁히려 한다.
표준 오류
표본분포의 분산이 클수록 한정된 부분만으로 대응하기는 어렵다. 반대로 분산이 적어 유리한 상황에서 불편할 정도로 넓은 구간을 주장할 이유는 없다. 상기의 z치에 표본분포의 분산에 대응하는 유연성을 부여하기 위해서는 표본분포의 표준편차인 표준오차(mm)를 곱할 필요가 있다. 표준오차는 모집단 표준편차()를 뿌리샘플의 크기(nn)로 나눈 값(√m=√n)으로 표본이 작거나 모집단 표준편차가 클수록 간격이 넓어지는 것을 상기한다.
모집단 표준편차()
어떤 이유에서든 우리는 이미 인구에 대한 표준 편차 정보를 가지고 있다고 가정합니다. 모집단의 표준편차()가 큰 경우에는 그에 따라 간격의 범위를 늘릴 필요가 있습니다. 반대로, 인구 표준 편차()가 작은 경우, 구간 범위를 넓게 설정할 필요는 없고, 정도를 확보하기 위해서 큰폭으로 줄일 필요가 있다. 즉, z값에 의해 부여된 부호(1.96)의 주소는 최종적이 아니라 모집단의 분산을 반영하기 위해 재입력해야 한다.

반대로 모집단 표준편차 정보가 주어지지 않으면 z값(1.96)을 충분한 신뢰도로 사용하면서 모집단 표준편차(s)만을 표본표준편차(n3030)로 대체할 수 있다. 그러나 표본이 모집단의 표준편차가 얼마나 큰지 모르고 하위 표본일 경우(n < 30) 표본의 표준편차(s) 대신 위의 z값을 사용할 수 없으며 대신 사용하는 t값을 사용할 수 있다.
샘플 크기(n)
뿌리는 수 자체의 크기를 줄였지만 표본이 표준 오차의 분모로 성장하면서 표준 오차를 줄이는 역할을 한다. 구간추정의 경우 z값(1.96)은 특정수에 구속되는 것이 아니라 샘플이 작아질수록 작아지도록 한다. 따라서 시료가 클수록 필요한 간격이 좁아져 정확한 추정이 가능해지고 시료가 작으면 간격이 넓어져 안전성을 확보할 수 있다.

 

식은 P(m-Z22nn[μ≦ m+Z22nn]=1-2n이고, 구간 추정의 허용 오차 범위는 式=±±Z22nn이다. 예를 들어 95% 신뢰수준(Z0.025=1.96)에서 표본평균(m)이 43.22, 모집단 표준편차(m)가 15, 표본사이즈(n)가 900이면 오차범위는 1.96×15) 900=0.98이며 신뢰수준의 간격은 42.24로 최대 44.2이다. 바꿔 말하면 42.244.2 범위의 파라미터가 있다고 말하고 싶지만, 같은 샘플링을 100회 실시해도 95개의 파라미터를 찾을 수 있다고 하는 에러 관리가 이루어져 직감적으로는 꽤 신뢰할 수 있는 추정치가 완성되었다는 것이다. 일반적인 여론 조사에서는 "…38%의 응답자가 대통령을 지지하고, 1.2%의 오차가 추가됩니다."는 그 이상의 의미도 있습니다. 36.8%에서 39.2% 사이에 실질적 지지율이 있어 같은 조사를 100번 해도 95점이 정답을 맞을 자신이 있다는 것이다.

댓글