* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 정의 및 기본 이론
(1) 여러 확률변수란?
- 여러 확률변수는 동일한 실험에서 다중 관찰된 결과 또는 여러 독립적 실험에서 발생한 값을 나타냅니다.
예: 두 주사위를 던졌을 때 각각의 결과를 \( X \), \( Y \)로 표현할 수 있습니다.
(2) 결합 확률분포 (Joint Distribution)
- 이산형: \( P(X=x, Y=y) \)로 두 확률변수 \( X \), \( Y \)가 특정 값을 가질 확률을 나타냅니다.
- 연속형: \( f_{X,Y}(x, y) \)로 두 확률변수의 결합 확률밀도를 표현합니다.
(3) 주변 분포 (Marginal Distribution)
- 결합 분포에서 한 변수에 대한 분포를 구하기 위해 나머지 변수를 제거합니다.
- 이산형: \( P_X(x) = \sum_y P(X=x, Y=y) \).
- 연속형: \( f_X(x) = \int_{-\infty}^\infty f_{X,Y}(x, y) \, dy \).
(4) 조건부 분포 (Conditional Distribution)
- 특정 값이 주어졌을 때 다른 변수의 분포를 의미합니다.
\[f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}, \, f_Y(y) > 0.\]
(5) 독립성 (Independence)
- 두 확률변수 \( X \), \( Y \)가 독립이라면:
\[P(X=x, Y=y) = P(X=x)P(Y=y), \, f_{X,Y}(x, y) = f_X(x)f_Y(y).\]
(6) 선형 조합 (Linear Combination)
- 여러 확률변수 \( X_1, X_2, \dots, X_n \)과 상수 \( a_1, a_2, \dots, a_n \)이 주어질 때:
\[Y = \sum_{i=1}^n a_i X_i.\]
(7) 기댓값과 분산(증명은 하단 참조)
- 선형 조합 \( Y = \sum_{i=1}^n a_i X_i \)에 대해:
- 기댓값: \( E(Y) = \sum_{i=1}^n a_i E(X_i) \).
- 분산: \( \text{Var}(Y) = \sum_{i=1}^n a_i^2 \text{Var}(X_i) \), 단 \( X_i \)가 독립일 때.
2. 예제
1) 문제
(1) 문제 1
\( X_1 \sim N(0,1), X_2 \sim N(2,4) \)가 독립일 때, \( Y = 3X_1 + 2X_2 \)의 분포를 구하시오.
(2) 문제 2
\( X_1, X_2, X_3 \sim \text{Exp}(1) \)이 독립일 때, \( P(0 < X_1 < 1, 1 < X_2 < 2, 2 < X_3 < 3) \)를 구하시오.
(3) 문제 3
\( X_1, X_2 \sim \text{Bernoulli}(p) \)에서 \( Y = X_1 + X_2 \)의 분포를 구하시오.
2) 답
(1)
\( Y \sim N(4, 20) \).
- 기댓값: \( E(Y) = 3E(X_1) + 2E(X_2) = 0 + 4 = 4 \).
- 분산: \( \text{Var}(Y) = 3^2 \text{Var}(X_1) + 2^2 \text{Var}(X_2) = 9 \cdot 1 + 4 \cdot 4 = 20 \).
(2)
\( P = (1 - e^{-1})(e^{-1} - e^{-2})(e^{-2} - e^{-3}) \).
- 각 구간에서 지수 분포 \( f(x) = e^{-x} \)를 적분하여 확률 계산.
(3)
\( Y \sim \text{Binomial}(2, p) \).
- \( P(Y=k) = \binom{2}{k} p^k (1-p)^{2-k}, \, k = 0, 1, 2. \)
3. 연습문제
1) 문제
(1) 문제 1
\( X_1, X_2 \sim \text{Exp}(1) \)가 독립일 때 \( Y = X_1 + X_2 \)의 분포를 구하시오.
(2) 문제 2
\( X_1, X_2 \sim N(0,1) \)이 독립일 때 \( Y = X_1^2 + X_2^2 \)의 분포를 구하시오.
(3) 문제 3
\( X_1, X_2, X_3 \sim U(0,1) \)에서 \( Z = \max(X_1, X_2, X_3) \)의 cdf를 구하시오.
2) 답
(1)
\( Y \sim \text{Gamma}(2, 1) \).
- 지수분포 두 개의 합은 감마분포가 됩니다.
(2)
\( Y \sim \chi^2_2 \) (자유도 2의 카이제곱 분포).
- 표준 정규분포 두 개의 제곱합은 카이제곱 분포를 따릅니다.
(3)
\( F_Z(z) = z^3, \, (0 \leq z \leq 1). \)
- \( F_Z(z) = P(Z \leq z) = P(X_1 \leq z, X_2 \leq z, X_3 \leq z) = (F_X(z))^3 \).
# R code
# 문제1
pgamma(2, shape = 2, rate = 1)
# 문제2
pchisq(2, df = 2)
# 문제3
F_Z <- function(z) {
if (z >= 0 && z <= 1) {
return(z^3)
} else {
return(0)
}
}
F_Z(0.5)
# Python code
# 문제1
from scipy.stats import gamma
result = gamma.cdf(2, a=2, scale=1)
print(result)
# 문제2
from scipy.stats import chi2
result = chi2.cdf(2, df=2)
print(result)
# 문제3
def F_Z(z):
if 0 <= z <= 1:
return z**3
else:
return 0
print(F_Z(0.5))
기댓값과 분산의 유도
1. 기댓값의 유도
1) \( Y = \sum_{i=1}^n a_i X_i \)에서 기댓값은:
\[E(Y) = E\left(\sum_{i=1}^n a_i X_i\right).\]
2) 기댓값의 선형성을 적용하면:
\[E(Y) = \sum_{i=1}^n a_i E(X_i).\]
2. 분산의 유도
1) 분산 정의:
\[\text{Var}(Y) = E[(Y - E(Y))^2].\]
여기서 \( Y - E(Y) = \sum_{i=1}^n a_i (X_i - E(X_i)) \).
2) 분산 계산:
\[\text{Var}(Y) = E\left[\left(\sum_{i=1}^n a_i (X_i - E(X_i))\right)^2\right].\]
3) 제곱 전개:
\[\left(\sum_{i=1}^n a_i (X_i - E(X_i))\right)^2 = \sum_{i=1}^n a_i^2 (X_i - E(X_i))^2 + \sum_{i \neq j} a_i a_j (X_i - E(X_i))(X_j - E(X_j)).\]
4) 독립성 활용:
\( X_i \)와 \( X_j \)가 독립적이면 \( E[(X_i - E(X_i))(X_j - E(X_j))] = 0 \). 따라서:
\[\text{Var}(Y) = \sum_{i=1}^n a_i^2 \text{Var}(X_i).\]