* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
정의 및 특징
1. 정규분포의 정의
정규분포는 연속 확률분포 중 가장 널리 사용되는 분포로, 평균을 중심으로 대칭적인 종 모양(bell-shaped) 곡선을 가집니다.
확률 밀도 함수(PDF)는 다음과 같이 정의됩니다:
\[
f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty
\]
여기서:
- \( \mu \): 평균(mean), \( -\infty < \mu < \infty \),
- \( \sigma^2 \): 분산(variance), \( \sigma > 0 \).
2. 표준 정규분포 (Standard Normal Distribution)
평균 \( \mu = 0 \), 분산 \( \sigma^2 = 1 \)인 정규분포를 표준 정규분포라 합니다.
표준 정규분포의 PDF는 다음과 같습니다:
\[
f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}
\]
표준 정규분포에서 \( Z \)는 다음과 같은 변환으로 얻을 수 있습니다:
\[
Z = \frac{X - \mu}{\sigma}
\]
\( Z \)는 평균 0, 분산 1인 정규분포를 따릅니다.
3. 정규분포의 성질
1. \( f(x) > 0 \) (확률 밀도 함수는 항상 양수).
2. 정규분포 곡선의 전체 면적은 1:
\[
\int_{-\infty}^\infty f(x) dx = 1
\]
3. 곡선의 대칭 축은 \( x = \mu \).
4. 표준 정규분포에서 누적 분포 함수(CDF)는 \( \Phi(z) \)로 표현됩니다:
\[
\Phi(z) = P(Z \leq z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt
\]
정리 3.3-1: 선형 변환에 대한 정규분포의 성질
정규분포 \( X \sim N(\mu, \sigma^2) \)에서 선형 변환 \( Y = aX + b \)를 고려할 때:
\[
Y \sim N(a\mu + b, a^2\sigma^2)
\]
증명
1. \( E(Y) = E(aX + b) = aE(X) + b = a\mu + b \).
2. \( \text{Var}(Y) = \text{Var}(aX + b) = a^2\text{Var}(X) = a^2\sigma^2 \).
정리 3.3-2: 독립 정규분포의 합
서로 독립인 정규분포 \( X_1 \sim N(\mu_1, \sigma_1^2) \)와 \( X_2 \sim N(\mu_2, \sigma_2^2) \)의 합 \( Y = X_1 + X_2 \)는:
\[
Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)
\]
증명
1. \( E(Y) = E(X_1 + X_2) = E(X_1) + E(X_2) = \mu_1 + \mu_2 \).
2. \( \text{Var}(Y) = \text{Var}(X_1 + X_2) = \text{Var}(X_1) + \text{Var}(X_2) = \sigma_1^2 + \sigma_2^2 \).
독립성에 의해 공분산이 0임을 이용.
정규분포의 평균과 분산 증명
평균 \( E(X) = \mu \)
정의에 의해:
\[
E(X) = \int_{-\infty}^\infty x f(x) dx = \int_{-\infty}^\infty x \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx
\]
치환: \( z = \frac{x-\mu}{\sigma}, \, x = z\sigma + \mu, \, dx = \sigma dz \).
\[
E(X) = \int_{-\infty}^\infty (\sigma z + \mu) \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz
\]
이를 분리하면:
\[
E(X) = \mu \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz + \sigma \int_{-\infty}^\infty z \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz
\]
첫 번째 항은 1이고, 두 번째 항은 0이므로:
\[
E(X) = \mu
\]
분산 \( \text{Var}(X) = \sigma^2 \)
분산의 정의:
\[
\text{Var}(X) = E(X^2) - [E(X)]^2
\]
여기서:
\[
E(X^2) = \int_{-\infty}^\infty x^2 f(x) dx
\]
치환 \( z = \frac{x-\mu}{\sigma} \)를 사용하여 계산하면:
\[
E(X^2) = \mu^2 + \sigma^2
\]
따라서:
\[
\text{Var}(X) = \mu^2 + \sigma^2 - \mu^2 = \sigma^2
\]
예제 1: 확률 계산
\( X \sim N(3, 16) \)일 때:
1. \( P(4 \leq X \leq 8) \)
\[
P(4 \leq X \leq 8) = \Phi\left(\frac{8-3}{4}\right) - \Phi\left(\frac{4-3}{4}\right)
\]
\[
P(4 \leq X \leq 8) = \Phi(1.25) - \Phi(0.25) = 0.8944 - 0.5987 = 0.2957
\]
예제 2: 표준 정규분포 계산
\( Z \sim N(0, 1) \)에서 \( P(-1.5 \leq Z \leq 1.2) \):
\[
P(-1.5 \leq Z \leq 1.2) = \Phi(1.2) - \Phi(-1.5)
\]
\[
P(-1.5 \leq Z \leq 1.2) = 0.8849 - 0.0668 = 0.8181
\]
연습문제
문제 3.3-1
표준 정규분포 \( Z \sim N(0, 1) \)에서:
1. \( P(0.53 < Z \leq 2.06) \),
2. \( P(Z > -1.77) \),
3. \( P(|Z| < 1.96) \) 계산.
문제 3.3-2
정규분포 \( X \sim N(5, 4) \)에서:
1. \( P(4 \leq X \leq 6) \),
2. \( P(X > 7) \),
3. \( P(|X - 5| < 2) \) 계산.
문제 3.3-3
정규분포 \( X \sim N(12, 9) \)에서:
1. \( P(X < 10) \),
2. \( P(11 \leq X \leq 13) \),
3. \( P(|X - 12| > 3) \) 계산.
연습문제 풀이
문제 3.3-1 풀이
표준 정규분포 \( Z \sim N(0, 1) \)를 따릅니다.
1. \( P(0.53 < Z \leq 2.06) \)
표준 정규분포에서:
\[
P(0.53 < Z \leq 2.06) = \Phi(2.06) - \Phi(0.53)
\]
확률 값은 표준 정규분포표를 이용하여 찾습니다:
\[
\Phi(2.06) \approx 0.9803, \quad \Phi(0.53) \approx 0.7019
\]
따라서:
\[
P(0.53 < Z \leq 2.06) = 0.9803 - 0.7019 = 0.2784
\]
2. \( P(Z > -1.77) \)
표준 정규분포의 성질에 의해:
\[
P(Z > -1.77) = 1 - P(Z \leq -1.77) = 1 - \Phi(-1.77)
\]
\[
\Phi(-1.77) = 1 - \Phi(1.77) \approx 1 - 0.9616 = 0.0384
\]
따라서:
\[
P(Z > -1.77) = 1 - 0.0384 = 0.9616
\]
3. \( P(|Z| < 1.96) \)
조건 \( |Z| < 1.96 \)은:
\[
P(|Z| < 1.96) = P(-1.96 \leq Z \leq 1.96)
\]
\[
P(-1.96 \leq Z \leq 1.96) = \Phi(1.96) - \Phi(-1.96)
\]
표준 정규분포표를 사용하면:
\[
\Phi(1.96) \approx 0.9750, \quad \Phi(-1.96) = 1 - \Phi(1.96) = 1 - 0.9750 = 0.0250
\]
따라서:
\[
P(|Z| < 1.96) = 0.9750 - 0.0250 = 0.9500
\]
문제 3.3-2 풀이
정규분포 \( X \sim N(5, 4) \) (평균 \( \mu = 5 \), 표준편차 \( \sigma = 2 \))를 따릅니다.
1. \( P(4 \leq X \leq 6) \)
표준화:
\[
Z_1 = \frac{4 - 5}{2} = -0.5, \quad Z_2 = \frac{6 - 5}{2} = 0.5
\]
\[
P(4 \leq X \leq 6) = \Phi(0.5) - \Phi(-0.5)
\]
표준 정규분포표에서:
\[
\Phi(0.5) \approx 0.6915, \quad \Phi(-0.5) = 1 - \Phi(0.5) = 1 - 0.6915 = 0.3085
\]
따라서:
\[
P(4 \leq X \leq 6) = 0.6915 - 0.3085 = 0.3830
\]
2. \( P(X > 7) \)
표준화:
\[
Z = \frac{7 - 5}{2} = 1
\]
\[
P(X > 7) = 1 - P(Z \leq 1) = 1 - \Phi(1)
\]
표준 정규분포표에서:
\[
\Phi(1) \approx 0.8413
\]
따라서:
\[
P(X > 7) = 1 - 0.8413 = 0.1587
\]
3. \( P(|X - 5| < 2) \)
조건 \( |X - 5| < 2 \)는:
\[
P(|X - 5| < 2) = P(3 \leq X \leq 7)
\]
표준화:
\[
Z_1 = \frac{3 - 5}{2} = -1, \quad Z_2 = \frac{7 - 5}{2} = 1
\]
\[
P(3 \leq X \leq 7) = \Phi(1) - \Phi(-1)
\]
표준 정규분포표에서:
\[
\Phi(1) \approx 0.8413, \quad \Phi(-1) = 1 - \Phi(1) = 1 - 0.8413 = 0.1587
\]
따라서:
\[
P(3 \leq X \leq 7) = 0.8413 - 0.1587 = 0.6826
\]
문제 3.3-3 풀이
정규분포 \( X \sim N(12, 9) \) (평균 \( \mu = 12 \), 표준편차 \( \sigma = 3 \))를 따릅니다.
1. \( P(X < 10) \)
표준화:
\[
Z = \frac{10 - 12}{3} = -\frac{2}{3} \approx -0.67
\]
\[
P(X < 10) = P(Z < -0.67) = \Phi(-0.67)
\]
표준 정규분포표에서:
\[
\Phi(-0.67) = 1 - \Phi(0.67) \approx 1 - 0.7486 = 0.2514
\]
2. \( P(11 \leq X \leq 13) \)
표준화:
\[
Z_1 = \frac{11 - 12}{3} = -\frac{1}{3} \approx -0.33, \quad Z_2 = \frac{13 - 12}{3} = \frac{1}{3} \approx 0.33
\]
\[
P(11 \leq X \leq 13) = \Phi(0.33) - \Phi(-0.33)
\]
표준 정규분포표에서:
\[
\Phi(0.33) \approx 0.6293, \quad \Phi(-0.33) = 1 - \Phi(0.33) = 1 - 0.6293 = 0.3707
\]
따라서:
\[
P(11 \leq X \leq 13) = 0.6293 - 0.3707 = 0.2586
\]
3. \( P(|X - 12| > 3) \)
조건 \( |X - 12| > 3 \)는:
\[
P(|X - 12| > 3) = P(X < 9) + P(X > 15)
\]
(a) \( P(X < 9) \):
\[
Z = \frac{9 - 12}{3} = -1
\]
\[
P(X < 9) = \Phi(-1) = 1 - \Phi(1) \approx 1 - 0.8413 = 0.1587
\]
(b) \( P(X > 15) \):
\[
Z = \frac{15 - 12}{3} = 1
\]
\[
P(X > 15) = 1 - \Phi(1) = 1 - 0.8413 = 0.1587
\]
합산:
\[
P(|X - 12| > 3) = P(X < 9) + P(X > 15) = 0.1587 + 0.1587 = 0.3174
\]
최종 결과 요약
문제 3.3-1
1. \( P(0.53 < Z \leq 2.06) \approx 0.2784 \),
2. \( P(Z > -1.77) \approx 0.9616 \),
3. \( P(|Z| < 1.96) = 0.9500 \).
문제 3.3-2
1. \( P(4 \leq X \leq 6) \approx 0.3830 \),
2. \( P(X > 7) \approx 0.1587 \),
3. \( P(|X - 5| < 2) \approx 0.6826 \).
문제 3.3-3
1. \( P(X < 10) \approx 0.2514 \),
2. \( P(11 \leq X \leq 13) \approx 0.2586 \),
3. \( P(|X - 12| > 3) \approx 0.3174 \).
# R 코드
# 문제 3.3-1
pnorm(2.06, mean = 0, sd = 1) - pnorm(0.53, mean = 0, sd = 1)
1 - pnorm(-1.77, mean = 0, sd = 1)
pnorm(1.96, mean = 0, sd = 1) - pnorm(-1.96, mean = 0, sd = 1)
# 문제 3.3-2
pnorm(6, mean = 5, sd = 2) - pnorm(4, mean = 5, sd = 2)
1 - pnorm(7, mean = 5, sd = 2)
pnorm(7, mean = 5, sd = 2) - pnorm(3, mean = 5, sd = 2)
# 문제 3.3-3
P_X_lt_10 <- pnorm(10, mean = 12, sd = 3)
P_11_to_13 <- pnorm(13, mean = 12, sd = 3) - pnorm(11, mean = 12, sd = 3)
P_abs_X_minus_12_gt_3 <- pnorm(9, mean = 12, sd = 3) + (1 - pnorm(15, mean = 12, sd = 3))
print(P_X_lt_10)
print(P_11_to_13)
print(P_abs_X_minus_12_gt_3)
# Python 코드
from scipy.stats import norm
# 문제 3.3-1
p1 = norm.cdf(2.06, loc=0, scale=1) - norm.cdf(0.53, loc=0, scale=1)
p2 = 1 - norm.cdf(-1.77, loc=0, scale=1)
p3 = norm.cdf(1.96, loc=0, scale=1) - norm.cdf(-1.96, loc=0, scale=1)
# 문제 3.3-2
p4 = norm.cdf(6, loc=5, scale=2) - norm.cdf(4, loc=5, scale=2)
p5 = 1 - norm.cdf(7, loc=5, scale=2)
p6 = norm.cdf(7, loc=5, scale=2) - norm.cdf(3, loc=5, scale=2)
# 문제 3.3-3
P_X_lt_10 = norm.cdf(10, loc=12, scale=3)
P_11_to_13 = norm.cdf(13, loc=12, scale=3) - norm.cdf(11, loc=12, scale=3)
P_abs_X_minus_12_gt_3 = norm.cdf(9, loc=12, scale=3) + (1 - norm.cdf(15, loc=12, scale=3))
print(P_X_lt_10)
print(P_11_to_13)
print(P_abs_X_minus_12_gt_3)
\(\Phi(z)\) 란 무엇인가?
\(\Phi(z)\)는 표준 정규분포의 누적 분포 함수(Cumulative Distribution Function, CDF)를 나타냅니다.
이는 표준 정규분포 \( Z \sim N(0, 1) \)에서 \( Z \leq z \)일 확률을 의미합니다.
즉, \(\Phi(z)\)는 다음과 같이 정의됩니다:
\[
\Phi(z) = P(Z \leq z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} e^{-t^2 / 2} dt
\]
\(\Phi(z)\)의 의미
- \(\Phi(z)\)는 \( Z \)가 \( z \) 이하의 값을 가질 확률을 나타냅니다.
- 예를 들어:
- \(\Phi(0) = 0.5\): 평균인 0에서 왼쪽과 오른쪽 면적이 대칭이므로, \( Z \leq 0 \)일 확률은 50%입니다.
- \(\Phi(1) \approx 0.8413\): \( Z \leq 1 \)일 확률은 약 84.13%입니다.
- \(\Phi(-1) = 1 - \Phi(1) \approx 0.1587\): \( Z \leq -1 \)일 확률은 약 15.87%입니다.
표준 정규분포와 \(\Phi(z)\)의 관계
표준 정규분포는 평균이 0, 분산이 1인 대칭적인 종 모양의 분포입니다.
\(\Phi(z)\)는 이 종 모양 분포에서 특정 값 \( z \)까지의 누적 확률을 계산하는 함수입니다.
- \(\Phi(z)\)의 특징:
1. \(-\infty < z < \infty\)에서 정의됩니다.
2. \(\Phi(z)\)의 값은 항상 \( 0 \leq \Phi(z) \leq 1 \)입니다.
3. 대칭성:
\[
\Phi(-z) = 1 - \Phi(z)
\]
이는 표준 정규분포가 대칭적이기 때문입니다.
\(\Phi(z)\)를 이용한 확률 계산
\(\Phi(z)\)는 표준 정규분포표나 계산기를 사용하여 값을 얻습니다.
예제:
1. \( P(Z \leq 1.28) = \Phi(1.28) \approx 0.8997 \):
\( Z \)가 1.28 이하일 확률은 약 89.97%입니다.
2. \( P(Z > -0.84) = 1 - \Phi(-0.84) \):
\(\Phi(-0.84) \approx 0.2005\), 따라서 \( P(Z > -0.84) = 1 - 0.2005 = 0.7995 \).
\( Z \)가 -0.84보다 클 확률은 약 79.95%입니다.
변환을 통해 정규분포에서 사용하는 방법
만약 \( X \sim N(\mu, \sigma^2) \)라면, 정규분포에서의 누적 분포 함수는 \(\Phi(z)\)를 통해 계산됩니다:
1. 표준화:
\[
Z = \frac{X - \mu}{\sigma}
\]
2. \( P(X \leq a) \)는 \( Z \leq \frac{a - \mu}{\sigma} \)에 대응하므로:
\[
P(X \leq a) = \Phi\left(\frac{a - \mu}{\sigma}\right)
\]
요약
- \(\Phi(z)\)는 표준 정규분포 \( Z \sim N(0, 1) \)의 누적 분포 함수입니다.
- 특정 \( z \)값까지의 누적 확률을 계산합니다.
- 표준 정규분포표나 계산기를 이용하여 값을 찾습니다.