* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을수 있으니 원본을 참고하여 확인하시기 바랍니다.
포아송 분포의 정의 (Definition of Poisson Distribution)
포아송 분포는 특정 시간 또는 공간 내에서 발생하는 드문 사건의 횟수를 나타내는 이산 확률 분포입니다. 포아송 분포는 아래의 확률 질량 함수(PMF)로 정의됩니다:
\[P(X = x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \dots\]
- \( X \): 사건의 횟수 (0 이상 정수값),
- \( \lambda \): 주어진 시간 또는 공간 단위에서의 평균 발생 횟수 (평균값 및 분산),
- \( e \): 자연 상수 (\( e \approx 2.718 \)).
포아송 분포의 특징 (Characteristics of Poisson Distribution)
1. 기대값 (Mean) 및 분산 (Variance):
- \( E(X) = \lambda \),
- \( \text{Var}(X) = \lambda \).
- 즉, 평균과 분산이 모두 \( \lambda \)로 동일합니다.
2. 포아송 분포의 성립 조건:
- 사건은 독립적으로 발생해야 합니다.
- 주어진 간격에서 사건이 발생할 확률은 고정되어 있어야 합니다.
- 짧은 간격에서는 두 번 이상의 사건이 동시에 발생할 확률이 매우 작아야 합니다.
3. 포아송 과정 (Poisson Process):
- 시간이나 공간을 작은 구간으로 나누어, 각 구간의 발생 확률을 이항분포로 나타내고 \( n \to \infty \), \( p \to 0 \)일 때 포아송 분포로 수렴합니다.
모멘트 생성 함수 (Moment-Generating Function, MGF)
포아송 분포의 MGF는 다음과 같습니다:
\[M_X(t) = e^{\lambda(e^t - 1)}\]
MGF를 이용하면 다음과 같은 성질을 도출할 수 있습니다:
- 평균: \( E(X) = \lambda \),
- 분산: \( \text{Var}(X) = \lambda \).
포아송 분포의 활용
1. 시간 단위에서 사건의 횟수:
- 예: 1시간 동안 콜센터에 접수된 전화의 수.
2. 공간 단위에서 사건의 횟수:
- 예: 특정 길이의 케이블에서 발생하는 결함의 수.
3. 이항분포 근사:
- 시행 횟수 \( n \)이 크고 성공 확률 \( p \)가 작을 때 (\( np = \lambda \)), 이항분포 \( b(n, p) \)는 포아송 분포로 근사할 수 있습니다.
예제
1. \( X \sim \text{Poisson}(\lambda = 5) \)일 때:
- \( P(X \leq 6) \): 누적 확률 계산,
- \( P(X > 5) = 1 - P(X \leq 5) \).
2. \( \lambda = 6 \)이고 9분 동안 전화가 5번 이상 오는 확률:
\[
P(X \geq 5) = 1 - P(X \leq 4)
\]
3. 결함이 \( 1/1200 \)의 확률로 발생하는 테이프에서 4800 피트 롤의 결함 수 분포:
- \( \lambda = 4800 \times \frac{1}{1200} = 4 \).
포아송 분포와 이항분포 간의 관계
포아송 분포는 아래와 같은 조건에서 이항분포를 근사할 수 있습니다:
1. 시행 횟수 \( n \)이 매우 크고,
2. 성공 확률 \( p \)가 매우 작으며,
3. \( \lambda = np \)가 고정된 값일 때.
연습문제 (Exercises)
1. \( X \sim \text{Poisson}(4) \)일 때:
- (a) \( P(2 \leq X \leq 5) \),
- (b) \( P(X \geq 3) \),
- (c) \( P(X \leq 3) \).
2. \( X \sim \text{Poisson}(\lambda = 3) \)일 때 \( P(X = 2) \)를 구하시오.
3. 평균이 11인 포아송 분포에서 10명 이상 도착할 확률을 구하시오.
4. \( P(X = 4) \)을 계산하시오, 조건: \( 3P(X = 1) = P(X = 2) \).
5. 결함 확률이 \( \frac{1}{150} \)인 경우, 225 제곱피트에서 결함이 최대 1개 발생할 확률을 구하시오.
포아송 분포의 기대값 및 분산 증명 (MGF 이용)
포아송 분포에서:
- 확률 질량 함수(PMF):
\[P(X = x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \dots\]
- 모멘트 생성 함수(MGF):
\[M_X(t) = E[e^{tX}] = e^{\lambda(e^t - 1)}\]
MGF를 이용하여 기대값(Mean)과 분산(Variance)을 증명하겠습니다.
1. 기대값 (\( E(X) \)) 증명
기대값 \( E(X) \)는 MGF의 1차 도함수를 통해 구할 수 있습니다:
\[E(X) = M_X'(0)\]
MGF 도함수 계산:
MGF:
\[M_X(t) = e^{\lambda(e^t - 1)}\]
1. \( M_X(t) \)를 \( t \)에 대해 미분:
\[M_X'(t) = \frac{d}{dt} e^{\lambda(e^t - 1)} = e^{\lambda(e^t - 1)} \cdot \lambda e^t\]
2. \( t = 0 \) 대입:
\[M_X'(0) = e^{\lambda(e^0 - 1)} \cdot \lambda e^0 = e^0 \cdot \lambda \cdot 1 = \lambda\]
결론:
\[E(X) = \lambda\]
2. 분산 (\( \text{Var}(X) \)) 증명
분산은 기대값과 2차 모멘트를 통해 구합니다:
\[\text{Var}(X) = E(X^2) - [E(X)]^2\]
1) \( E(X^2) \) 구하기
\( E(X^2) \)는 MGF의 2차 도함수를 통해 구할 수 있습니다:
\[E(X^2) = M_X''(0)\]
1. \( M_X'(t) \)를 다시 한 번 미분하여 \( M_X''(t) \) 계산:
\[M_X'(t) = e^{\lambda(e^t - 1)} \cdot \lambda e^t\]
두 번째 미분:
\[M_X''(t) = \frac{d}{dt} \left[ e^{\lambda(e^t - 1)} \cdot \lambda e^t \right]\]
곱의 미분을 사용:
\[M_X''(t) = e^{\lambda(e^t - 1)} \cdot \lambda e^t \cdot \lambda e^t + e^{\lambda(e^t - 1)} \cdot \lambda e^t\]
단순화:
\[M_X''(t) = e^{\lambda(e^t - 1)} \cdot \lambda e^t \left( \lambda e^t + 1 \right)\]
2. \( t = 0 \) 대입:
\[M_X''(0) = e^{\lambda(e^0 - 1)} \cdot \lambda e^0 \left( \lambda e^0 + 1 \right)\]
\[M_X''(0) = 1 \cdot \lambda \cdot (\lambda + 1) = \lambda^2 + \lambda\]
2) \( \text{Var}(X) \) 계산
\[\text{Var}(X) = E(X^2) - [E(X)]^2\]
대입:
\[\text{Var}(X) = (\lambda^2 + \lambda) - (\lambda)^2 = \lambda\]
결론
1. 기대값:
\[E(X) = \lambda\]
2. 분산:
\[\text{Var}(X) = \lambda\]
연습문제 풀이 및 코드
문제 1: \( X \sim \text{Poisson}(4) \)
1. (a) \( P(2 \leq X \leq 5) \):
\[P(2 \leq X \leq 5) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5)\]
포아송 PMF를 사용하여 각각 계산:
\[P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad \lambda = 4\]
2. (b) \( P(X \geq 3) \):
\[P(X \geq 3) = 1 - P(X \leq 2)\]
여기서 \( P(X \leq 2) = P(X = 0) + P(X = 1) + P(X = 2) \).
3. (c) \( P(X \leq 3) \):
\[P(X \leq 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3)\]
문제 2: \( X \sim \text{Poisson}(\lambda = 3) \), \( P(X = 2) \)
\[P(X = 2) = \frac{\lambda^2 e^{-\lambda}}{2!}, \quad \lambda = 3\]
문제 3: 평균이 11인 포아송 분포에서 \( P(X \geq 10) \)
1. \( P(X \geq 10) = 1 - P(X \leq 9) \).
2. \( P(X \leq 9) \)는 누적 분포 함수(CDF)로 계산.
문제 4: \( P(X = 4) \), 조건: \( 3P(X = 1) = P(X = 2) \)
1. 포아송 분포 PMF를 활용:
\[P(X = 1) = \frac{\lambda e^{-\lambda}}{1!}, \quad P(X = 2) = \frac{\lambda^2 e^{-\lambda}}{2!}\]
2. 조건 대입:
\[3 \cdot \frac{\lambda e^{-\lambda}}{1!} = \frac{\lambda^2 e^{-\lambda}}{2!}\]
\[3\lambda = \frac{\lambda^2}{2} \quad \Rightarrow \quad \lambda = 6\]
3. \( P(X = 4) \):
\[P(X = 4) = \frac{\lambda^4 e^{-\lambda}}{4!}, \quad \lambda = 6\]
문제 5: 결함 확률이 \( \frac{1}{150} \), 면적이 225 제곱피트에서 결함 최대 1개 발생 확률
1. 평균 결함 수 \( \lambda = 225 \times \frac{1}{150} = 1.5 \).
2. \( P(X \leq 1) = P(X = 0) + P(X = 1) \):
\[P(X = 0) = \frac{\lambda^0 e^{-\lambda}}{0!}, \quad P(X = 1) = \frac{\lambda^1 e^{-\lambda}}{1!}\]
# R 코드
# Problem 1
lambda <- 4
# (a) P(2 <= X <= 5)
P_2_to_5 <- sum(dpois(2:5, lambda = lambda))
print(P_2_to_5)
# (b) P(X >= 3)
P_geq_3 <- 1 - ppois(2, lambda = lambda)
print(P_geq_3)
# (c) P(X <= 3)
P_leq_3 <- ppois(3, lambda = lambda)
print(P_leq_3)
# Problem 2
lambda <- 3
P_X_eq_2 <- dpois(2, lambda = lambda)
print(P_X_eq_2)
# Problem 3
lambda <- 11
P_geq_10 <- 1 - ppois(9, lambda = lambda)
print(P_geq_10)
# Problem 4
lambda <- 6
P_X_eq_4 <- dpois(4, lambda = lambda)
print(P_X_eq_4)
# Problem 5
lambda <- 1.5
P_leq_1 <- ppois(1, lambda = lambda)
print(P_leq_1)
# Python 코드
from scipy.stats import poisson
# Problem 1
lambda_ = 4
# (a) P(2 <= X <= 5)
P_2_to_5 = sum(poisson.pmf(k, mu=lambda_) for k in range(2, 6))
print(P_2_to_5)
# (b) P(X >= 3)
P_geq_3 = 1 - poisson.cdf(2, mu=lambda_)
print(P_geq_3)
# (c) P(X <= 3)
P_leq_3 = poisson.cdf(3, mu=lambda_)
print(P_leq_3)
# Problem 2
lambda_ = 3
P_X_eq_2 = poisson.pmf(2, mu=lambda_)
print(P_X_eq_2)
# Problem 3
lambda_ = 11
P_geq_10 = 1 - poisson.cdf(9, mu=lambda_)
print(P_geq_10)
# Problem 4
lambda_ = 6
P_X_eq_4 = poisson.pmf(4, mu=lambda_)
print(P_X_eq_4)
# Problem 5
lambda_ = 1.5
P_leq_1 = poisson.cdf(1, mu=lambda_)
print(P_leq_1)