통계

4.2 Bivariate Distributions -THE CORRELATION COEFFICIENT

VirtualJin 2025. 1. 2. 09:56

* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다

 

상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 값입니다. 이는 두 확률변수 \( X \)와 \( Y \)의 공분산을 각 변수의 표준편차로 나누어 정의됩니다.

1. 공분산 (Covariance)  
공분산은 두 확률변수의 결합 분포를 기반으로 계산되며, 다음과 같이 정의됩니다:  
\[\text{Cov}(X, Y) = E[XY] - E[X]E[Y]\]  
- \(\text{Cov}(X, Y) > 0\): \( X \)와 \( Y \)가 양의 상관관계를 가짐  
- \(\text{Cov}(X, Y) < 0\): \( X \)와 \( Y \)가 음의 상관관계를 가짐  
- \(\text{Cov}(X, Y) = 0\): \( X \)와 \( Y \)가 선형적으로 독립적임

 2. 상관계수 (Correlation Coefficient)  
상관계수 \( \rho_{XY} \)는 공분산을 각 변수의 표준편차로 나누어 정규화한 값입니다.  
\[\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \cdot \text{Var}(Y)}}\]  
여기서, \(\text{Var}(X)\)와 \(\text{Var}(Y)\)는 각각 \( X \)와 \( Y \)의 분산입니다.  
\[\text{Var}(X) = E[X^2] - (E[X])^2, \quad \text{Var}(Y) = E[Y^2] - (E[Y])^2\]

 3. 상관계수의 범위  
- \( \rho_{XY} \in [-1, 1] \)  
  - \( \rho_{XY} = 1 \): 완벽한 양의 선형 관계  
  - \( \rho_{XY} = -1 \): 완벽한 음의 선형 관계  
  - \( \rho_{XY} = 0 \): 선형 관계 없음  

예제
예제 1: 두 변수의 상관계수 계산  
다음 결합 확률표에서 \( E[X] \), \( E[Y] \), \( E[XY] \), \( \text{Var}(X) \), \( \text{Var}(Y) \), 그리고 \( \rho_{XY} \)를 계산하세요.

  Y = 1 Y = 2 Y = 3
X = 1 0.1 0.1 0.2
X = 2 0.1 0.3 0.2


답안  
1. \( E[X] = 1 \cdot (0.1 + 0.1 + 0.2) + 2 \cdot (0.1 + 0.3 + 0.2) = 1.7 \)  
2. \( E[Y] = 1 \cdot (0.1 + 0.1) + 2 \cdot (0.1 + 0.3) + 3 \cdot (0.2 + 0.2) = 2.3 \)  
3. \( E[XY] = \sum x_i y_j P(X = x_i, Y = y_j) = 4.2 \)  
4. \( \text{Var}(X) = E[X^2] - (E[X])^2 = 3.1 - 1.7^2 = 0.21 \)  
5. \( \text{Var}(Y) = E[Y^2] - (E[Y])^2 = 5.29 - 2.3^2 = 0.18 \)  
6. \( \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \cdot \text{Var}(Y)}} = \frac{4.2 - (1.7 \cdot 2.3)}{\sqrt{0.21 \cdot 0.18}} = 0.91 \)

예제 2: 선형 관계 여부 확인  
다음 결합 확률표에서 \( X \)와 \( Y \)의 상관계수를 계산하고 선형 관계가 있는지 확인하세요.

  Y = 1 Y = 2
X = 1 0.3 0.2
X = 2 0.2 0.3

1. 기대값 계산
- \( E(X) = \sum_x x P(X = x) \)
- \( E(Y) = \sum_y y P(Y = y) \)

확률 분포로부터:
- \( P(X = 1) = 0.3 + 0.2 = 0.5 \), \( P(X = 2) = 0.2 + 0.3 = 0.5 \)
- \( P(Y = 1) = 0.3 + 0.2 = 0.5 \), \( P(Y = 2) = 0.2 + 0.3 = 0.5 \)

따라서:
- \( E(X) = (1)(0.5) + (2)(0.5) = 1.5 \)
- \( E(Y) = (1)(0.5) + (2)(0.5) = 1.5 \)

2. 분산 계산
- \( Var(X) = E(X^2) - [E(X)]^2 \)
- \( Var(Y) = E(Y^2) - [E(Y)]^2 \)

계산:
- \( E(X^2) = (1^2)(0.5) + (2^2)(0.5) = 0.5 + 2 = 2.5 \)
- \( Var(X) = 2.5 - (1.5)^2 = 2.5 - 2.25 = 0.25 \)
- \( E(Y^2) = (1^2)(0.5) + (2^2)(0.5) = 2.5 \)
- \( Var(Y) = 2.5 - (1.5)^2 = 0.25 \)

3. 공분산 계산
- \( Cov(X, Y) = E(XY) - E(X)E(Y) \)

공분산 계산:
- \( E(XY) = (1)(1)(0.3) + (1)(2)(0.2) + (2)(1)(0.2) + (2)(2)(0.3) = 0.3 + 0.4 + 0.4 + 1.2 = 2.3 \)
- \( Cov(X, Y) = 2.3 - (1.5)(1.5) = 2.3 - 2.25 = 0.05 \)

4. 상관계수 계산
- \( \rho_{XY} = \frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}} \)
- \( \rho_{XY} = \frac{0.05}{\sqrt{0.25 \cdot 0.25}} = \frac{0.05}{0.25} = 0.2 \)

결론:
상관계수 \( \rho_{XY} = 0.2 \)는 \( X \)와 \( Y \) 사이에 약한 양의 선형 관계가 있음을 나타냅니다.


예제 3: 상관계수 계산 및 해석  
다음 결합 확률표에서 \( \rho_{XY} \)를 계산하고, 결과를 해석하세요.

  Y = 1 Y = 2 Y = 3
X = 1 0.2 0.1 0.1
X = 2 0.1 0.2 0.3

기대값:
- \( E(X) = (1)(0.4) + (2)(0.6) = 1.6 \)
- \( E(Y) = (1)(0.3) + (2)(0.3) + (3)(0.4) = 2.1 \)

 

공분산 계산
- \( E(XY) \) 항목별로:
  - \( (1)(1)(0.2) = 0.2 \)
  - \( (1)(2)(0.1) = 0.2 \)
  - \( (1)(3)(0.1) = 0.3 \)
  - \( (2)(1)(0.1) = 0.2 \)
  - \( (2)(2)(0.2) = 0.8 \)
  - \( (2)(3)(0.3) = 1.8 \)

총합:
- \( E(XY) = 0.2 + 0.2 + 0.3 + 0.2 + 0.8 + 1.8 = 3.5 \)

공분산 재계산:
- \( Cov(X, Y) = E(XY) - E(X)E(Y) = 3.5 - (1.6)(2.1) = 3.5 - 3.36 = 0.14 \)

상관계수:
- \( \rho_{XY} = \frac{0.14}{\sqrt{0.24 \cdot 0.69}} = \frac{0.14}{\sqrt{0.1656}} = \frac{0.14}{0.407} \approx 0.344 \)

상관계수는 \( \rho_{XY} \approx 0.344 \)입니다. 약한 양의 선형 관계를 나타냅니다.


연습문제
문제 1  
다음 결합 확률표에서 \( E[X] \), \( E[Y] \), \( E[XY] \), \( \text{Var}(X) \), \( \text{Var}(Y) \), 그리고 \( \rho_{XY} \)를 계산하세요.

  Y = 1 Y = 2 Y = 3
X = 1 0.1 0.2 0.2
X = 2 0.2 0.1 0.2


문제 2  
다음 결합 확률표에서 \( X \)와 \( Y \)가 선형 관계인지 확인하세요.

  Y = 1 Y = 2
X = 1 0.4 0.1
X = 2 0.2 0.3

 


연습문제 답

문제 1: \( E[X] \), \( E[Y] \), \( E[XY] \), \( \text{Var}(X) \), \( \text{Var}(Y) \), \( \rho_{XY} \)
계산
1. \( P(X=1) = 0.1 + 0.2 + 0.2 = 0.5 \), \( P(X=2) = 0.2 + 0.1 + 0.2 = 0.5 \)  
   \( P(Y=1) = 0.1 + 0.2 = 0.3 \), \( P(Y=2) = 0.2 + 0.1 = 0.3 \), \( P(Y=3) = 0.2 + 0.2 = 0.4 \)

2. 기대값 계산:
   - \( E[X] = 1(0.5) + 2(0.5) = 1.5 \)
   - \( E[Y] = 1(0.3) + 2(0.3) + 3(0.4) = 2.1 \)
   - \( E[XY] = (1)(1)(0.1) + (1)(2)(0.2) + (1)(3)(0.2) + (2)(1)(0.2) + (2)(2)(0.1) + (2)(3)(0.2) \)
     = \( 0.1 + 0.4 + 0.6 + 0.2 + 0.4 + 1.2 = 2.9 \)

3. 분산 계산:
   - \( E[X^2] = (1^2)(0.5) + (2^2)(0.5) = 0.5 + 2 = 2.5 \)
   - \( \text{Var}(X) = E[X^2] - [E[X]]^2 = 2.5 - 1.5^2 = 2.5 - 2.25 = 0.25 \)
   - \( E[Y^2] = (1^2)(0.3) + (2^2)(0.3) + (3^2)(0.4) = 0.3 + 1.2 + 3.6 = 5.1 \)
   - \( \text{Var}(Y) = E[Y^2] - [E[Y]]^2 = 5.1 - 2.1^2 = 5.1 - 4.41 = 0.69 \)

4. 상관계수 계산:
   - \( \text{Cov}(X, Y) = E[XY] - E[X]E[Y] = 2.9 - (1.5)(2.1) = 2.9 - 3.15 = -0.25 \)
   - \( \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var}(Y)}} = \frac{-0.25}{\sqrt{0.25 \cdot 0.69}} = \frac{-0.25}{0.415} \approx -0.602 \)

# R code
# 데이터 정의
data <- matrix(c(0.1, 0.2, 0.2, 0.2, 0.1, 0.2), nrow = 2, byrow = TRUE)
rownames(data) <- c("X=1", "X=2")
colnames(data) <- c("Y=1", "Y=2", "Y=3")

# 기대값 계산
E_X <- sum(rowSums(data)  c(1, 2))
E_Y <- sum(colSums(data)  c(1, 2, 3))
E_XY <- sum(data  outer(c(1, 2), c(1, 2, 3)))

# 분산 및 공분산
Var_X <- sum(rowSums(data)  c(1, 2)^2) - E_X^2
Var_Y <- sum(colSums(data)  c(1, 2, 3)^2) - E_Y^2
Cov_XY <- E_XY - E_X  E_Y

# 상관계수
rho_XY <- Cov_XY / sqrt(Var_X  Var_Y)
rho_XY
# Python code
import numpy as np

# 데이터 정의
data = np.array([[0.1, 0.2, 0.2], [0.2, 0.1, 0.2]])
X_vals = np.array([1, 2])
Y_vals = np.array([1, 2, 3])

# 기대값 계산
P_X = data.sum(axis=1)
P_Y = data.sum(axis=0)
E_X = (X_vals  P_X).sum()
E_Y = (Y_vals  P_Y).sum()
E_XY = (data  np.outer(X_vals, Y_vals)).sum()

# 분산 및 공분산
Var_X = (X_vals2  P_X).sum() - E_X2
Var_Y = (Y_vals2  P_Y).sum() - E_Y2
Cov_XY = E_XY - E_X  E_Y

# 상관계수
rho_XY = Cov_XY / np.sqrt(Var_X  Var_Y)
rho_XY


문제 2: 선형 관계 여부 확인
상관계수 계산
1. \( P(X=1) = 0.5 \), \( P(X=2) = 0.5 \), \( P(Y=1) = 0.6 \), \( P(Y=2) = 0.4 \)  
   - \( E[X] = 1(0.5) + 2(0.5) = 1.5 \)
   - \( E[Y] = 1(0.6) + 2(0.4) = 1.4 \)

2. \( E[XY] = (1)(1)(0.4) + (1)(2)(0.1) + (2)(1)(0.2) + (2)(2)(0.3) = 0.4 + 0.1 + 0.2 + 1.2 = 1.9 \)

3. \( E[X^2] = (1^2)(0.5) + (2^2)(0.5) = 0.5 + 2 = 2.5 \), \( \text{Var}(X) = 2.5 - 1.5^2 = 0.25 \)  
   \( E[Y^2] = (1^2)(0.6) + (2^2)(0.4) = 0.6 + 1.6 = 2.2 \), \( \text{Var}(Y) = 2.2 - 1.4^2 = 0.24 \)

4. \( \text{Cov}(X, Y) = E[XY] - E[X]E[Y] = 1.9 - (1.5)(1.4) = 1.9 - 2.1 = -0.2 \)

5. \( \rho_{XY} = \frac{-0.2}{\sqrt{0.25 \cdot 0.24}} = \frac{-0.2}{0.245} \approx -0.816 \)

결론:
상관계수 \( \rho_{XY} \approx -0.816 \), 강한 음의 선형 관계를 가짐.