* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 값입니다. 이는 두 확률변수 \( X \)와 \( Y \)의 공분산을 각 변수의 표준편차로 나누어 정의됩니다.
1. 공분산 (Covariance)
공분산은 두 확률변수의 결합 분포를 기반으로 계산되며, 다음과 같이 정의됩니다:
\[\text{Cov}(X, Y) = E[XY] - E[X]E[Y]\]
- \(\text{Cov}(X, Y) > 0\): \( X \)와 \( Y \)가 양의 상관관계를 가짐
- \(\text{Cov}(X, Y) < 0\): \( X \)와 \( Y \)가 음의 상관관계를 가짐
- \(\text{Cov}(X, Y) = 0\): \( X \)와 \( Y \)가 선형적으로 독립적임
2. 상관계수 (Correlation Coefficient)
상관계수 \( \rho_{XY} \)는 공분산을 각 변수의 표준편차로 나누어 정규화한 값입니다.
\[\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \cdot \text{Var}(Y)}}\]
여기서, \(\text{Var}(X)\)와 \(\text{Var}(Y)\)는 각각 \( X \)와 \( Y \)의 분산입니다.
\[\text{Var}(X) = E[X^2] - (E[X])^2, \quad \text{Var}(Y) = E[Y^2] - (E[Y])^2\]
3. 상관계수의 범위
- \( \rho_{XY} \in [-1, 1] \)
- \( \rho_{XY} = 1 \): 완벽한 양의 선형 관계
- \( \rho_{XY} = -1 \): 완벽한 음의 선형 관계
- \( \rho_{XY} = 0 \): 선형 관계 없음
예제
예제 1: 두 변수의 상관계수 계산
다음 결합 확률표에서 \( E[X] \), \( E[Y] \), \( E[XY] \), \( \text{Var}(X) \), \( \text{Var}(Y) \), 그리고 \( \rho_{XY} \)를 계산하세요.
| Y = 1 | Y = 2 | Y = 3 | |
| X = 1 | 0.1 | 0.1 | 0.2 |
| X = 2 | 0.1 | 0.3 | 0.2 |
답안
1. \( E[X] = 1 \cdot (0.1 + 0.1 + 0.2) + 2 \cdot (0.1 + 0.3 + 0.2) = 1.7 \)
2. \( E[Y] = 1 \cdot (0.1 + 0.1) + 2 \cdot (0.1 + 0.3) + 3 \cdot (0.2 + 0.2) = 2.3 \)
3. \( E[XY] = \sum x_i y_j P(X = x_i, Y = y_j) = 4.2 \)
4. \( \text{Var}(X) = E[X^2] - (E[X])^2 = 3.1 - 1.7^2 = 0.21 \)
5. \( \text{Var}(Y) = E[Y^2] - (E[Y])^2 = 5.29 - 2.3^2 = 0.18 \)
6. \( \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \cdot \text{Var}(Y)}} = \frac{4.2 - (1.7 \cdot 2.3)}{\sqrt{0.21 \cdot 0.18}} = 0.91 \)
예제 2: 선형 관계 여부 확인
다음 결합 확률표에서 \( X \)와 \( Y \)의 상관계수를 계산하고 선형 관계가 있는지 확인하세요.
| Y = 1 | Y = 2 | |
| X = 1 | 0.3 | 0.2 |
| X = 2 | 0.2 | 0.3 |
1. 기대값 계산
- \( E(X) = \sum_x x P(X = x) \)
- \( E(Y) = \sum_y y P(Y = y) \)
확률 분포로부터:
- \( P(X = 1) = 0.3 + 0.2 = 0.5 \), \( P(X = 2) = 0.2 + 0.3 = 0.5 \)
- \( P(Y = 1) = 0.3 + 0.2 = 0.5 \), \( P(Y = 2) = 0.2 + 0.3 = 0.5 \)
따라서:
- \( E(X) = (1)(0.5) + (2)(0.5) = 1.5 \)
- \( E(Y) = (1)(0.5) + (2)(0.5) = 1.5 \)
2. 분산 계산
- \( Var(X) = E(X^2) - [E(X)]^2 \)
- \( Var(Y) = E(Y^2) - [E(Y)]^2 \)
계산:
- \( E(X^2) = (1^2)(0.5) + (2^2)(0.5) = 0.5 + 2 = 2.5 \)
- \( Var(X) = 2.5 - (1.5)^2 = 2.5 - 2.25 = 0.25 \)
- \( E(Y^2) = (1^2)(0.5) + (2^2)(0.5) = 2.5 \)
- \( Var(Y) = 2.5 - (1.5)^2 = 0.25 \)
3. 공분산 계산
- \( Cov(X, Y) = E(XY) - E(X)E(Y) \)
공분산 계산:
- \( E(XY) = (1)(1)(0.3) + (1)(2)(0.2) + (2)(1)(0.2) + (2)(2)(0.3) = 0.3 + 0.4 + 0.4 + 1.2 = 2.3 \)
- \( Cov(X, Y) = 2.3 - (1.5)(1.5) = 2.3 - 2.25 = 0.05 \)
4. 상관계수 계산
- \( \rho_{XY} = \frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}} \)
- \( \rho_{XY} = \frac{0.05}{\sqrt{0.25 \cdot 0.25}} = \frac{0.05}{0.25} = 0.2 \)
결론:
상관계수 \( \rho_{XY} = 0.2 \)는 \( X \)와 \( Y \) 사이에 약한 양의 선형 관계가 있음을 나타냅니다.
예제 3: 상관계수 계산 및 해석
다음 결합 확률표에서 \( \rho_{XY} \)를 계산하고, 결과를 해석하세요.
| Y = 1 | Y = 2 | Y = 3 | |
| X = 1 | 0.2 | 0.1 | 0.1 |
| X = 2 | 0.1 | 0.2 | 0.3 |
기대값:
- \( E(X) = (1)(0.4) + (2)(0.6) = 1.6 \)
- \( E(Y) = (1)(0.3) + (2)(0.3) + (3)(0.4) = 2.1 \)
공분산 계산
- \( E(XY) \) 항목별로:
- \( (1)(1)(0.2) = 0.2 \)
- \( (1)(2)(0.1) = 0.2 \)
- \( (1)(3)(0.1) = 0.3 \)
- \( (2)(1)(0.1) = 0.2 \)
- \( (2)(2)(0.2) = 0.8 \)
- \( (2)(3)(0.3) = 1.8 \)
총합:
- \( E(XY) = 0.2 + 0.2 + 0.3 + 0.2 + 0.8 + 1.8 = 3.5 \)
공분산 재계산:
- \( Cov(X, Y) = E(XY) - E(X)E(Y) = 3.5 - (1.6)(2.1) = 3.5 - 3.36 = 0.14 \)
상관계수:
- \( \rho_{XY} = \frac{0.14}{\sqrt{0.24 \cdot 0.69}} = \frac{0.14}{\sqrt{0.1656}} = \frac{0.14}{0.407} \approx 0.344 \)
상관계수는 \( \rho_{XY} \approx 0.344 \)입니다. 약한 양의 선형 관계를 나타냅니다.
연습문제
문제 1
다음 결합 확률표에서 \( E[X] \), \( E[Y] \), \( E[XY] \), \( \text{Var}(X) \), \( \text{Var}(Y) \), 그리고 \( \rho_{XY} \)를 계산하세요.
| Y = 1 | Y = 2 | Y = 3 | |
| X = 1 | 0.1 | 0.2 | 0.2 |
| X = 2 | 0.2 | 0.1 | 0.2 |
문제 2
다음 결합 확률표에서 \( X \)와 \( Y \)가 선형 관계인지 확인하세요.
| Y = 1 | Y = 2 | |
| X = 1 | 0.4 | 0.1 |
| X = 2 | 0.2 | 0.3 |
연습문제 답
문제 1: \( E[X] \), \( E[Y] \), \( E[XY] \), \( \text{Var}(X) \), \( \text{Var}(Y) \), \( \rho_{XY} \)
계산
1. \( P(X=1) = 0.1 + 0.2 + 0.2 = 0.5 \), \( P(X=2) = 0.2 + 0.1 + 0.2 = 0.5 \)
\( P(Y=1) = 0.1 + 0.2 = 0.3 \), \( P(Y=2) = 0.2 + 0.1 = 0.3 \), \( P(Y=3) = 0.2 + 0.2 = 0.4 \)
2. 기대값 계산:
- \( E[X] = 1(0.5) + 2(0.5) = 1.5 \)
- \( E[Y] = 1(0.3) + 2(0.3) + 3(0.4) = 2.1 \)
- \( E[XY] = (1)(1)(0.1) + (1)(2)(0.2) + (1)(3)(0.2) + (2)(1)(0.2) + (2)(2)(0.1) + (2)(3)(0.2) \)
= \( 0.1 + 0.4 + 0.6 + 0.2 + 0.4 + 1.2 = 2.9 \)
3. 분산 계산:
- \( E[X^2] = (1^2)(0.5) + (2^2)(0.5) = 0.5 + 2 = 2.5 \)
- \( \text{Var}(X) = E[X^2] - [E[X]]^2 = 2.5 - 1.5^2 = 2.5 - 2.25 = 0.25 \)
- \( E[Y^2] = (1^2)(0.3) + (2^2)(0.3) + (3^2)(0.4) = 0.3 + 1.2 + 3.6 = 5.1 \)
- \( \text{Var}(Y) = E[Y^2] - [E[Y]]^2 = 5.1 - 2.1^2 = 5.1 - 4.41 = 0.69 \)
4. 상관계수 계산:
- \( \text{Cov}(X, Y) = E[XY] - E[X]E[Y] = 2.9 - (1.5)(2.1) = 2.9 - 3.15 = -0.25 \)
- \( \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var}(Y)}} = \frac{-0.25}{\sqrt{0.25 \cdot 0.69}} = \frac{-0.25}{0.415} \approx -0.602 \)
# R code
# 데이터 정의
data <- matrix(c(0.1, 0.2, 0.2, 0.2, 0.1, 0.2), nrow = 2, byrow = TRUE)
rownames(data) <- c("X=1", "X=2")
colnames(data) <- c("Y=1", "Y=2", "Y=3")
# 기대값 계산
E_X <- sum(rowSums(data) c(1, 2))
E_Y <- sum(colSums(data) c(1, 2, 3))
E_XY <- sum(data outer(c(1, 2), c(1, 2, 3)))
# 분산 및 공분산
Var_X <- sum(rowSums(data) c(1, 2)^2) - E_X^2
Var_Y <- sum(colSums(data) c(1, 2, 3)^2) - E_Y^2
Cov_XY <- E_XY - E_X E_Y
# 상관계수
rho_XY <- Cov_XY / sqrt(Var_X Var_Y)
rho_XY
# Python code
import numpy as np
# 데이터 정의
data = np.array([[0.1, 0.2, 0.2], [0.2, 0.1, 0.2]])
X_vals = np.array([1, 2])
Y_vals = np.array([1, 2, 3])
# 기대값 계산
P_X = data.sum(axis=1)
P_Y = data.sum(axis=0)
E_X = (X_vals P_X).sum()
E_Y = (Y_vals P_Y).sum()
E_XY = (data np.outer(X_vals, Y_vals)).sum()
# 분산 및 공분산
Var_X = (X_vals2 P_X).sum() - E_X2
Var_Y = (Y_vals2 P_Y).sum() - E_Y2
Cov_XY = E_XY - E_X E_Y
# 상관계수
rho_XY = Cov_XY / np.sqrt(Var_X Var_Y)
rho_XY
문제 2: 선형 관계 여부 확인
상관계수 계산
1. \( P(X=1) = 0.5 \), \( P(X=2) = 0.5 \), \( P(Y=1) = 0.6 \), \( P(Y=2) = 0.4 \)
- \( E[X] = 1(0.5) + 2(0.5) = 1.5 \)
- \( E[Y] = 1(0.6) + 2(0.4) = 1.4 \)
2. \( E[XY] = (1)(1)(0.4) + (1)(2)(0.1) + (2)(1)(0.2) + (2)(2)(0.3) = 0.4 + 0.1 + 0.2 + 1.2 = 1.9 \)
3. \( E[X^2] = (1^2)(0.5) + (2^2)(0.5) = 0.5 + 2 = 2.5 \), \( \text{Var}(X) = 2.5 - 1.5^2 = 0.25 \)
\( E[Y^2] = (1^2)(0.6) + (2^2)(0.4) = 0.6 + 1.6 = 2.2 \), \( \text{Var}(Y) = 2.2 - 1.4^2 = 0.24 \)
4. \( \text{Cov}(X, Y) = E[XY] - E[X]E[Y] = 1.9 - (1.5)(1.4) = 1.9 - 2.1 = -0.2 \)
5. \( \rho_{XY} = \frac{-0.2}{\sqrt{0.25 \cdot 0.24}} = \frac{-0.2}{0.245} \approx -0.816 \)
결론:
상관계수 \( \rho_{XY} \approx -0.816 \), 강한 음의 선형 관계를 가짐.
'통계' 카테고리의 다른 글
| 4.4 Bivariate Distributions -BIVARIATE DISTRIBUTIONS OF THE CONTINUOUS TYPE (0) | 2025.01.02 |
|---|---|
| 4.3 Bivariate Distributions -CONDITIONAL DISTRIBUTIONS (0) | 2025.01.02 |
| 4.1 Bivariate Distributions -Bivariate Distributions of the Discrete Type (0) | 2025.01.02 |
| 3.4 Continuous Distributions -Additional Models (1) | 2024.12.27 |
| 3.3 Continuous Distributions -The Normal Distribution (1) | 2024.12.27 |