* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
확률론에서 이산 분포의 근사는 특정 조건 하에서 복잡한 이산 확률 분포를 간단한 다른 분포로 대체하여 계산의 복잡성을 줄이는 방법입니다. 이는 주로 포아송 분포와 정규 분포를 사용하여 이항 분포를 근사하는 데 사용됩니다.
2. 정의 및 이론
1) 포아송 분포로의 근사
- 정의: 이항 분포 \(B(n, p)\)에서 \(n\)이 매우 크고 \(p\)가 매우 작을 때, \(\lambda = np\)로 설정하면 포아송 분포 \(P(\lambda)\)로 근사할 수 있습니다.
- 조건: \(n \geq 20, p \leq 0.05\) 또는 \(n \geq 100, np \leq 10\).
- 포아송 근사의 계산식:
\[P(X = k) \approx \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots\]
- Corollary: 정확한 확률 계산이 어려운 경우 포아송 근사를 통해 문제를 단순화할 수 있습니다.
2) 정규 분포로의 근사
- 정의: 중심극한정리에 의해, 이항 분포 \(B(n, p)\)는 \(n\)이 매우 크면 정규 분포 \(N(\mu = np, \sigma^2 = np(1-p))\)로 근사할 수 있습니다.
- 조건: \(np \geq 5\) 및 \(n(1-p) \geq 5\).
- 정규 근사의 계산식:
연속성 보정을 사용하여,
\[P(a \leq X \leq b) \approx P\left(a - 0.5 \leq Z \leq b + 0.5\right)\]
여기서 \(Z = \frac{X - \mu}{\sigma}\)는 표준화된 정규 변수입니다.
3) 정규 분포로 포아송 분포의 근사
- 포아송 분포 \(P(\lambda)\)는 \(\lambda\)가 충분히 크면 정규 분포 \(N(\mu = \lambda, \sigma^2 = \lambda)\)로 근사할 수 있습니다.
- 연속성 보정을 통해 계산 정확도를 높입니다.
3. 증명
포아송 분포로의 근사 증명
1) 이항 분포의 확률질량함수는 다음과 같습니다.
\[P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \dots, n\]
2) \(n\)이 매우 크고 \(p\)가 매우 작아 \(\lambda = np\)로 설정합니다.
3) 이항 계수를 다음과 같이 근사합니다.
\[\binom{n}{k} \approx \frac{n^k}{k!}\]
4) \((1-p)^n \approx e^{-np} = e^{-\lambda}\)를 사용하여 다음 식을 얻습니다.
\[P(X = k) \approx \frac{\lambda^k e^{-\lambda}}{k!}\]
이는 포아송 분포의 확률질량함수와 동일합니다.
정규 분포로의 근사 증명
1) 중심극한정리에 의해, 이항 분포의 표본 평균은 정규 분포로 수렴합니다.
2) 이항 분포의 평균과 분산을 \(\mu = np\), \(\sigma^2 = np(1-p)\)로 두면, \(Z\)로 변환 시 다음과 같은 정규 분포를 따릅니다.
\[Z = \frac{X - \mu}{\sigma}\]
2. 예제 문제
1) 문제
(1) 문제 1
이항 분포 \(B(50, 0.02)\)는 포아송 분포로 근사될 수 있습니다. \(P(X = 2)\)를 구하세요.
(2) 문제 2
이항 분포 \(B(100, 0.5)\)는 정규 분포로 근사됩니다. \(P(45 \leq X \leq 55)\)를 계산하세요.
(3) 문제 3
포아송 분포 \(P(\lambda = 10)\)를 정규 분포로 근사하여 \(P(8 \leq X \leq 12)\)를 구하세요.
2) 답
(1) 문제 1
- 포아송 분포의 매개변수:
\(\lambda = np = 50 \times 0.02 = 1\).
- 계산:
\[P(X = 2) \approx \frac{\lambda^2 e^{-\lambda}}{2!} = \frac{1^2 e^{-1}}{2} = \frac{e^{-1}}{2}.\]
\(e^{-1} \approx 0.3679\)이므로,
\[P(X = 2) \approx \frac{0.3679}{2} = 0.1839.\]
- 답: \(P(X = 2) \approx 0.1839\).
(2) 문제 2
- 정규 분포의 매개변수:
\[\mu = np = 100 \times 0.5 = 50, \quad \sigma = \sqrt{np(1-p)} = \sqrt{100 \times 0.5 \times 0.5} = 5.\]
- 연속성 보정:
\(P(45 \leq X \leq 55) \approx P(44.5 \leq Z \leq 55.5)\).
- 표준화:
\[Z_1 = \frac{44.5 - 50}{5} = -1.1, \quad Z_2 = \frac{55.5 - 50}{5} = 1.1.\]
- 표준 정규분포에서의 확률:
\[P(-1.1 \leq Z \leq 1.1) = P(Z \leq 1.1) - P(Z \leq -1.1).\]
표준 정규분포 표에 의해,
\[P(Z \leq 1.1) \approx 0.8643, \quad P(Z \leq -1.1) \approx 0.1357.\]
따라서,
\[P(-1.1 \leq Z \leq 1.1) = 0.8643 - 0.1357 = 0.7286.\]
- 답: \(P(45 \leq X \leq 55) \approx 0.7286\).
(3) 문제 3
- 정규 분포의 매개변수:
\(\mu = \lambda = 10, \sigma = \sqrt{\lambda} = \sqrt{10} \approx 3.162\).
- 연속성 보정:
\(P(8 \leq X \leq 12) \approx P(7.5 \leq Z \leq 12.5)\).
- 표준화:
\[Z_1 = \frac{7.5 - 10}{\sqrt{10}} = -0.79, \quad Z_2 = \frac{12.5 - 10}{\sqrt{10}} = 0.79.\]
- 표준 정규분포에서의 확률:
\[P(-0.79 \leq Z \leq 0.79) = P(Z \leq 0.79) - P(Z \leq -0.79).\]
표준 정규분포 표에 의해,
\[P(Z \leq 0.79) \approx 0.7852, \quad P(Z \leq -0.79) \approx 0.2148.\]
따라서,
\[P(-0.79 \leq Z \leq 0.79) = 0.7852 - 0.2148 = 0.5704.\]
- 답: \(P(8 \leq X \leq 12) \approx 0.5704\).
3. 연습문제
1) 문제
(1) 문제 1
이항 분포 \(B(20, 0.1)\)에서 포아송 분포를 이용해 \(P(X = 3)\)를 구하세요.
(2) 문제 2
\(B(40, 0.3)\)를 정규 분포로 근사하여 \(P(10 \leq X \leq 15)\)를 계산하세요.
(3) 문제 3
포아송 분포 \(P(\lambda = 15)\)를 정규 분포로 근사하여 \(P(X \geq 20)\)를 구하세요.
2) 답
(1) 문제 1
\[P(X = 2) \approx \frac{(50 \times 0.02)^2 e^{-1}}{2!} = 0.1839\]
(2) 문제 2
\[P(45 \leq X \leq 55) \approx P\left(\frac{44.5 - 50}{5} \leq Z \leq \frac{55.5 - 50}{5}\right) = P(-1.1 \leq Z \leq 1.1) = 0.726\]
(3) 문제 3
\[P(8 \leq X \leq 12) \approx P\left(\frac{7.5 - 10}{\sqrt{10}} \leq Z \leq \frac{12.5 - 10}{\sqrt{10}}\right) = P(-0.79 \leq Z \leq 0.79) = 0.573\]
3. 연습문제
1) 문제
(1) 문제 1
이항 분포 \(B(20, 0.1)\)에서 포아송 분포를 이용해 \(P(X = 3)\)를 구하세요.
(2) 문제 2
\(B(40, 0.3)\)를 정규 분포로 근사하여 \(P(10 \leq X \leq 15)\)를 계산하세요.
(3) 문제 3
포아송 분포 \(P(\lambda = 15)\)를 정규 분포로 근사하여 \(P(X \geq 20)\)를 구하세요.
2) 답
(1) 문제 1
\[P(X = 2) \approx \frac{(50 \times 0.02)^2 e^{-1}}{2!} = 0.1839\]
(2) 문제 2
\[P(45 \leq X \leq 55) \approx P\left(\frac{44.5 - 50}{5} \leq Z \leq \frac{55.5 - 50}{5}\right) = P(-1.1 \leq Z \leq 1.1) = 0.726\]
(3) 문제 3
\[P(8 \leq X \leq 12) \approx P\left(\frac{7.5 - 10}{\sqrt{10}} \leq Z \leq \frac{12.5 - 10}{\sqrt{10}}\right) = P(-0.79 \leq Z \leq 0.79) = 0.573\]
# R code
# 문제 1
dpois(2, lambda = 50 0.02)
# 문제 2
pnorm(55.5, mean = 50, sd = sqrt(25)) - pnorm(44.5, mean = 50, sd = sqrt(25))
# 문제 3
pnorm(12.5, mean = 10, sd = sqrt(10)) - pnorm(7.5, mean = 10, sd = sqrt(10))
# Python code
from scipy.stats import poisson, norm
# 문제 1
poisson.pmf(2, mu=50 0.02)
# 문제 2
norm.cdf(55.5, loc=50, scale=5) - norm.cdf(44.5, loc=50, scale=5)
# 문제 3
norm.cdf(12.5, loc=10, scale=(100.5)) - norm.cdf(7.5, loc=10, scale=(100.5))