* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 지수 분포 (Exponential Distribution)
정의
지수 분포는 포아송 과정에서 사건 간 시간 간격 또는 거리 간격의 분포를 나타냅니다. 예를 들어, 전구가 고장 나기까지의 시간이나 고객이 도착하기까지의 시간 등을 나타낼 수 있습니다.
- 확률 밀도 함수 (PDF):
\[
f(x) = \lambda e^{-\lambda x}, \quad x \geq 0, \lambda > 0
\]
- 누적 분포 함수 (CDF):
\[
F(x) = P(X \leq x) = \int_{0}^{x} \lambda e^{-\lambda t} dt = 1 - e^{-\lambda x}, \quad x \geq 0
\]
증명: 평균 (\( E(X) \))과 분산 (\( \text{Var}(X) \))
1. 기대값 \( E(X) \):
\[
E(X) = \int_{0}^\infty x f(x) dx = \int_{0}^\infty x \lambda e^{-\lambda x} dx
\]
부분적분을 이용
- \( u = x, \, dv = \lambda e^{-\lambda x} dx \)
- \( du = dx, \, v = -e^{-\lambda x} / \lambda \)
적용:
\[
E(X) = \left[ -x e^{-\lambda x} \right]_0^\infty + \int_{0}^\infty e^{-\lambda x} dx
\]
1. 첫 번째 항: \( \left[ -x e^{-\lambda x} \right]_0^\infty = 0 - 0 = 0 \)
2. 두 번째 항:
\[
\int_{0}^\infty e^{-\lambda x} dx = \frac{1}{\lambda}
\]
따라서:
\[
E(X) = \frac{1}{\lambda}
\]
2. 분산 \( \text{Var}(X) \):
\[
\text{Var}(X) = E(X^2) - [E(X)]^2
\]
먼저 \( E(X^2) \) 계산:
\[
E(X^2) = \int_{0}^\infty x^2 \lambda e^{-\lambda x} dx
\]
부분적분 반복
- 첫 번째 적분:
\( u = x^2, \, dv = \lambda e^{-\lambda x} dx \)
\( du = 2x dx, \, v = -e^{-\lambda x} / \lambda \):
\[
E(X^2) = \left[ -x^2 e^{-\lambda x} \right]_0^\infty + \int_{0}^\infty 2x e^{-\lambda x} dx
\]
- 두 번째 적분:
\( u = x, \, dv = 2 e^{-\lambda x} dx \):
\[
E(X^2) = 0 + \frac{2}{\lambda^2}
\]
결과:
\[
E(X^2) = \frac{2}{\lambda^2}
\]
따라서 분산:
\[
\text{Var}(X) = \frac{2}{\lambda^2} - \left( \frac{1}{\lambda} \right)^2 = \frac{1}{\lambda^2}
\]
기억 없음 성질 (Memoryless Property)
지수 분포는 과거와 상관없이 미래가 결정되는 특징이 있습니다:
\[
P(X > x + y \mid X > x) = P(X > y)
\]
증명:
조건부 확률 정의에 의해:
\[
P(X > x + y \mid X > x) = \frac{P(X > x + y)}{P(X > x)}
\]
지수 분포에서는:
\[
P(X > x) = e^{-\lambda x}, \quad P(X > x + y) = e^{-\lambda (x + y)}
\]
\[
P(X > x + y \mid X > x) = \frac{e^{-\lambda (x + y)}}{e^{-\lambda x}} = e^{-\lambda y}
\]
결과적으로 \( P(X > y) \)와 동일합니다.
2. 감마 분포 (Gamma Distribution)
정의
감마 분포는 여러 개의 독립적인 지수 분포의 합으로 정의됩니다. 포아송 과정에서 \( \alpha \)번 사건이 발생할 때까지의 총 대기 시간을 나타냅니다.
- 확률 밀도 함수 (PDF):
\[
f(x) = \frac{x^{\alpha - 1} e^{-x/\theta}}{\Gamma(\alpha) \theta^\alpha}, \quad x \geq 0, \alpha > 0, \theta > 0
\]
여기서 \( \Gamma(\alpha) \)는 감마 함수로 정의됩니다:
\[
\Gamma(\alpha) = \int_{0}^\infty t^{\alpha - 1} e^{-t} dt
\]
유도: 지수 분포의 합
1. 설정
1. \( X_1, X_2, \dots, X_n \sim \text{Exponential}(\lambda) \): 독립적인 지수 분포를 따르는 확률 변수.
2. \( S_n = \sum_{i=1}^n X_i \): \( n \)개의 지수 분포의 합.
2. \( S_n \)의 누적 분포 함수(CDF):
\[
F_{S_n}(x) = P(S_n \leq x)
\]
합이 \( x \) 이하라는 것은, \( n \)번의 대기 시간이 총합 \( x \)를 넘지 않는다는 뜻입니다.
3. 확률 밀도 함수(PDF):
누적 분포를 미분하여 PDF를 구합니다. 결과적으로 \( S_n \)의 PDF는 다음과 같이 유도됩니다:
\[
f_{S_n}(x) = \frac{x^{\alpha - 1} e^{-x/\theta}}{\Gamma(\alpha) \theta^\alpha}, \quad x \geq 0
\]
특성
1. 평균:
\[
E(X) = \alpha \theta
\]
2. 분산:
\[
\text{Var}(X) = \alpha \theta^2
\]
3. 카이제곱 분포 (Chi-Square Distribution)
정의
카이제곱 분포는 감마 분포의 특수한 형태입니다. 감마 분포에서 \( \alpha = r/2 \), \( \theta = 2 \)일 때 카이제곱 분포가 됩니다.
- 확률 밀도 함수 (PDF):
\[
f(x) = \frac{x^{(r/2) - 1} e^{-x/2}}{\Gamma(r/2) 2^{r/2}}, \quad x \geq 0
\]
특성
1. 평균:
\[
E(X) = r
\]
2. 분산:
\[
\text{Var}(X) = 2r
\]
연습문제
지수 분포 (Exponential Distribution)
문제 1.1
지수 분포 \( X \sim \text{Exponential}(\lambda = 3) \)를 따릅니다.
1. \( P(X > 2) \)를 계산하시오.
2. \( P(1 \leq X \leq 3) \)를 계산하시오.
3. 평균과 분산을 구하시오.
문제 1.2
어떤 기계의 평균 수명(시간)이 \( 5 \)시간이라 할 때,
1. 기계가 \( 7 \)시간 이상 작동할 확률을 계산하시오.
2. 기계가 \( 2 \leq X \leq 6 \)시간 동안 작동할 확률을 계산하시오.
3. 기계의 수명이 \( 3 \)시간 이하일 확률을 계산하시오.
문제 1.3
지수 분포 \( X \sim \text{Exponential}(\lambda = 4) \)일 때,
1. \( P(X > 5) \)를 계산하시오.
2. \( P(3 \leq X \leq 6) \)를 계산하시오.
3. 기대값과 표준편차를 구하시오.
감마 분포 (Gamma Distribution)
문제 2.1
감마 분포 \( X \sim \text{Gamma}(\alpha = 2, \theta = 3) \)를 따릅니다.
1. 평균과 분산을 구하시오.
2. \( P(X \leq 5) \)를 계산하시오.
3. \( P(3 \leq X \leq 7) \)를 계산하시오.
문제 2.2
포아송 과정에서 사건이 \( 4 \)번 발생할 때까지 걸리는 시간을 \( X \)라고 합니다.
1. \( X \)의 분포를 구하시오.
2. 평균과 분산을 계산하시오.
3. \( P(X \leq 6) \)를 계산하시오.
문제 2.3
감마 분포 \( X \sim \text{Gamma}(\alpha = 3, \theta = 2) \)를 따릅니다.
1. \( P(X > 4) \)를 계산하시오.
2. \( P(2 \leq X \leq 6) \)를 계산하시오.
3. 평균과 표준편차를 구하시오.
카이제곱 분포 (Chi-Square Distribution)
문제 3.1
카이제곱 분포 \( X \sim \chi^2(6) \)를 따릅니다.
1. 평균과 분산을 구하시오.
2. \( P(X < 4) \)를 계산하시오.
3. \( P(X > 8) \)를 계산하시오.
문제 3.2
카이제곱 분포 \( X \sim \chi^2(10) \)에서:
1. \( P(6 \leq X \leq 12) \)를 계산하시오.
2. \( P(X > 15) \)를 계산하시오.
3. 평균과 표준편차를 구하시오.
문제 3.3
카이제곱 분포 \( X \sim \chi^2(8) \)를 따릅니다.
1. \( P(X < 7) \)를 계산하시오.
2. \( P(5 \leq X \leq 10) \)를 계산하시오.
3. \( P(X > 11) \)를 계산하시오.
연습문제 풀이
지수 분포 풀이
1. \( P(X > 2) = e^{-\lambda x} = e^{-3 \cdot 2} = e^{-6} \approx 0.0025 \).
2. \( P(1 \leq X \leq 3) = F(3) - F(1) \):
\[
F(3) = 1 - e^{-3 \cdot 3}, \quad F(1) = 1 - e^{-3 \cdot 1}
\]
\[
P(1 \leq X \leq 3) = (1 - e^{-9}) - (1 - e^{-3}) = e^{-3} - e^{-9}
\]
3. 평균:
\[
E(X) = \frac{1}{\lambda} = \frac{1}{3} \approx 0.333
\]
분산:
\[
\text{Var}(X) = \frac{1}{\lambda^2} = \frac{1}{9} \approx 0.111
\]
# R 코드
lambda <- 3
P_X_gt_2 <- exp(-lambda 2)
P_1_to_3 <- exp(-lambda 1) - exp(-lambda 3)
E_X <- 1 / lambda
Var_X <- 1 / lambda^2
print(P_X_gt_2)
print(P_1_to_3)
print(c(E_X, Var_X))
# Python 코드
from scipy.stats import expon
lambda_ = 3
P_X_gt_2 = 1 - expon.cdf(2, scale=1/lambda_)
P_1_to_3 = expon.cdf(3, scale=1/lambda_) - expon.cdf(1, scale=1/lambda_)
E_X = 1 / lambda_
Var_X = 1 / lambda_2
print(P_X_gt_2)
print(P_1_to_3)
print(E_X, Var_X)
감마 분포 풀이
1. 평균:
\[
E(X) = \alpha \theta = 2 \cdot 3 = 6
\]
분산:
\[
\text{Var}(X) = \alpha \theta^2 = 2 \cdot 3^2 = 18
\]
2. \( P(X \leq 5) = \text{pgamma}(5, \text{shape} = 2, \text{scale} = 3) \).
3. \( P(3 \leq X \leq 7) = \text{pgamma}(7, \text{shape} = 2, \text{scale} = 3) - \text{pgamma}(3, \text{shape} = 2, \text{scale} = 3) \).
# R 코드
alpha <- 2
theta <- 3
E_X <- alpha theta
Var_X <- alpha theta^2
P_X_leq_5 <- pgamma(5, shape = alpha, scale = theta)
P_3_to_7 <- pgamma(7, shape = alpha, scale = theta) - pgamma(3, shape = alpha, scale = theta)
print(E_X)
print(Var_X)
print(P_X_leq_5)
print(P_3_to_7)
# Python 코드
from scipy.stats import gamma
alpha = 2
theta = 3
E_X = alpha theta
Var_X = alpha theta2
P_X_leq_5 = gamma.cdf(5, a=alpha, scale=theta)
P_3_to_7 = gamma.cdf(7, a=alpha, scale=theta) - gamma.cdf(3, a=alpha, scale=theta)
print(E_X)
print(Var_X)
print(P_X_leq_5)
print(P_3_to_7)
카이제곱 분포 풀이
1. 평균 및 분산
카이제곱 분포의 평균과 분산은 다음과 같습니다:
- 평균:
\[
E(X) = r = 6
\]
- 분산:
\[
\text{Var}(X) = 2r = 12
\]
2. \( P(X < 4) \) 계산
카이제곱 분포의 누적 분포 함수(CDF)는 다음과 같이 정의됩니다:
\[
P(X < 4) = F(4) = \frac{1}{\Gamma(r/2) 2^{r/2}} \int_{0}^{4} t^{(r/2) - 1} e^{-t/2} dt
\]
여기서:
- \( r = 6 \), 따라서 \( r/2 = 3 \),
- \( \Gamma(3) = (3-1)! = 2! = 2 \).
PDF는 다음과 같습니다:
\[
f(x) = \frac{x^{(3 - 1)} e^{-x/2}}{\Gamma(3) 2^3} = \frac{x^2 e^{-x/2}}{16}
\]
적분 범위를 적용하면:
\[
P(X < 4) = \int_{0}^{4} \frac{t^2 e^{-t/2}}{16} dt
\]
적분 계산
\[
\int t^2 e^{-t/2} dt
\]
치환 \( u = t/2, \, du = dt/2 \)를 사용:
\[
\int t^2 e^{-t/2} dt = \int (2u)^2 e^{-u} \cdot 2 du = 8 \int u^2 e^{-u} du
\]
적분 \( \int u^2 e^{-u} du \)는 감마 함수의 성질로 계산됩니다:
\[
\int u^2 e^{-u} du = \Gamma(3) = 2
\]
따라서:
\[
\int_{0}^{4} t^2 e^{-t/2} dt = 8 \cdot \Gamma(3) = 8 \cdot 2 = 16
\]
최종적으로:
\[
P(X < 4) = \frac{16}{16} = 1
\]
3. \( P(X > 8) \) 계산
\[
P(X > 8) = 1 - P(X \leq 8)
\]
우선:
\[
P(X \leq 8) = F(8) = \frac{1}{\Gamma(3) 2^3} \int_{0}^{8} t^2 e^{-t/2} dt
\]
적분 계산
적분은 \( t^2 e^{-t/2} \)를 \( 0 \)에서 \( 8 \)까지 계산해야 합니다.
위와 동일한 방법으로 계산하면:
\[
\int_{0}^{8} t^2 e^{-t/2} dt = \text{복잡한 수치 계산이 필요하므로 근사치를 사용}
\]
\( P(X > 8) \)는 수치적으로 계산하여:
\[
P(X > 8) \approx 0.198
\]
결론
손 계산으로 \( P(X < 4) \)는 정확히 계산 가능하지만, \( P(X > 8) \)는 실제적으로 수치 근사를 이용하거나 테이블을 참고하여 해결하는 것이 현실적입니다.
# R 코드
df <- 6
E_X <- df
Var_X <- 2 df
P_X_lt_4 <- pchisq(4, df = df)
P_X_gt_8 <- 1 - pchisq(8, df = df)
print(E_X)
print(Var_X)
print(P_X_lt_4)
print(P_X_gt_8)
# Python 코드
from scipy.stats import chi2
df = 6
E_X = df
Var_X = 2 df
P_X_lt_4 = chi2.cdf(4, df)
P_X_gt_8 = 1 - chi2.cdf(8, df)
print(E_X)
print(Var_X)
print(P_X_lt_4)
print(P_X_gt_8)
감마 분포와 감마 함수: 왜 정의되는가?
감마 함수 정의
감마 함수 \( \Gamma(\alpha) \)는 다음과 같이 정의됩니다:
\[
\Gamma(\alpha) = \int_{0}^\infty t^{\alpha - 1} e^{-t} dt, \quad \alpha > 0
\]
이 함수는 감마 분포의 확률 밀도 함수(PDF)를 정규화(normalization)하기 위해 사용됩니다. 감마 함수가 포함되지 않으면 감마 분포의 PDF가 전체 확률이 1이 되는 조건을 만족하지 못합니다.
감마 분포 정의와 감마 함수의 역할
감마 분포 PDF
감마 분포는 다음과 같은 PDF로 정의됩니다:
\[
f(x) = \frac{x^{\alpha - 1} e^{-x/\theta}}{\Gamma(\alpha) \theta^\alpha}, \quad x \geq 0
\]
여기서 \( \Gamma(\alpha) \)는 분포의 전체 면적(확률)이 1이 되도록 하는 정규화 상수입니다.
즉:
\[
\int_{0}^\infty f(x) dx = 1
\]
왜 \( \Gamma(\alpha) \)가 필요한가?
- 만약 \( \Gamma(\alpha) \) 없이:
\[
g(x) = x^{\alpha - 1} e^{-x/\theta}, \quad x \geq 0
\]
전체 면적:
\[
\int_{0}^\infty g(x) dx
\]
가 1이 아닙니다.
정규화 과정
정규화 상수를 구하기 위해:
\[
C = \int_{0}^\infty x^{\alpha - 1} e^{-x/\theta} dx
\]
이를 계산하면:
\[
C = \Gamma(\alpha) \theta^\alpha
\]
결국 PDF는 다음과 같이 정규화됩니다:
\[
f(x) = \frac{g(x)}{C} = \frac{x^{\alpha - 1} e^{-x/\theta}}{\Gamma(\alpha) \theta^\alpha}
\]
감마 함수의 유도 과정: 적분의 동기
문제
우리가 원하는 건 지수 분포의 합이 \( x \)에서의 확률 밀도를 구하는 것입니다. \( n \)개의 독립적인 지수 분포의 합 \( S_n = \sum_{i=1}^n X_i \)를 생각합시다.
중심 적분 구조
결국 \( S_n \)의 PDF는 다음과 같은 적분으로 표현됩니다:
\[
f(x) = x^{\alpha - 1} e^{-x/\theta}
\]
그러나, 이를 확률 분포로 만들기 위해 전체 적분 값이 1이어야 합니다. 따라서:
\[
\int_{0}^\infty x^{\alpha - 1} e^{-x/\theta} dx
\]
를 계산해야 합니다. 여기서 \( \Gamma(\alpha) \)가 등장합니다.
감마 함수의 주요 성질 증명
1. 감마 함수의 재귀적 성질
감마 함수는 다음 관계를 만족합니다:
\[
\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)
\]
증명
\[
\Gamma(\alpha + 1) = \int_{0}^\infty t^\alpha e^{-t} dt
\]
부분적분 사용:
- \( u = t^\alpha, \, dv = e^{-t} dt \)
- \( du = \alpha t^{\alpha - 1} dt, \, v = -e^{-t} \)
적용:
\[
\Gamma(\alpha + 1) = \left[ -t^\alpha e^{-t} \right]_0^\infty + \int_{0}^\infty \alpha t^{\alpha - 1} e^{-t} dt
\]
첫 항은 0이므로:
\[
\Gamma(\alpha + 1) = \alpha \int_{0}^\infty t^{\alpha - 1} e^{-t} dt = \alpha \Gamma(\alpha)
\]
2. \( \Gamma(n) = (n-1)! \) (자연수 \( n \)일 때)
감마 함수는 \( n \)이 자연수일 때 팩토리얼과 동일합니다:
\[
\Gamma(n) = (n-1)!
\]
증명
귀납법을 사용합니다:
1. \( n = 1 \)일 때:
\[
\Gamma(1) = \int_{0}^\infty t^{1-1} e^{-t} dt = \int_{0}^\infty e^{-t} dt = \left[ -e^{-t} \right]_0^\infty = 1
\]
따라서 \( \Gamma(1) = 0! = 1 \).
2. \( n = k \)일 때 \( \Gamma(k) = (k-1)! \)라 가정.
3. \( n = k+1 \):
\[
\Gamma(k+1) = k \Gamma(k)
\]
귀납 가정에 의해:
\[
\Gamma(k+1) = k \cdot (k-1)! = k!
\]
따라서 \( \Gamma(n) = (n-1)! \)임이 증명됩니다.
3. 감마 함수와 적분 치환의 연계
감마 함수 정의를 적분의 치환을 통해 이해할 수 있습니다.
치환: \( t = x/\theta \), \( x = \theta t \), \( dx = \theta dt \)
감마 분포 적분:
\[
\int_{0}^\infty x^{\alpha - 1} e^{-x/\theta} dx
\]
치환:
\[
= \int_{0}^\infty (\theta t)^{\alpha - 1} e^{-t} \theta dt = \theta^\alpha \int_{0}^\infty t^{\alpha - 1} e^{-t} dt
\]
결과:
\[
\int_{0}^\infty x^{\alpha - 1} e^{-x/\theta} dx = \Gamma(\alpha) \theta^\alpha
\]
결론
감마 분포는 \( \Gamma(\alpha) \)를 통해 PDF를 정규화하고, \( \Gamma(\alpha) \)는 적분 계산 및 지수 분포 합의 밀도를 결정하는 핵심 함수로 작동합니다. 이를 통해 감마 분포가 수학적으로 일관성을 유지하고, 확률 분포로 활용될 수 있습니다.
'통계' 카테고리의 다른 글
| 3.4 Continuous Distributions -Additional Models (1) | 2024.12.27 |
|---|---|
| 3.3 Continuous Distributions -The Normal Distribution (1) | 2024.12.27 |
| 3.1 Continuous Distributions -Random Variables of the Continuous Type (0) | 2024.12.27 |
| 2.6 Discrete Distributions -The Poisson Distribution (0) | 2024.12.23 |
| 2.5 Discrete Distributions -The Negative Binomial Distribution (1) | 2024.12.23 |