* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론정리
1) 회귀 및 상관 관계에 대한 검정 (Tests Concerning Regression and Correlation)
(1) 개요
a) 회귀 분석에서는 독립 변수와 종속 변수 간의 관계를 평가하기 위해 회귀 계수에 대한 가설 검정을 수행한다.
b) 상관 분석에서는 두 변수 간의 선형 관계를 측정하는 상관 계수의 유의성을 검정한다.
2) 회귀 계수에 대한 검정 (Tests About Regression Coefficient)
(1) 선형 회귀 모델
a) 단순 선형 회귀 모델은 다음과 같이 표현된다.
\[
Y = \beta_0 + \beta_1 X + \epsilon
\]
b) 여기서 \(\beta_0\)는 절편, \(\beta_1\)은 기울기, \(\epsilon\)은 오차 항을 의미한다.
(2) 귀무가설 및 대립가설
a) 회귀 계수 \(\beta_1\)에 대한 가설 검정에서는 보통 다음과 같은 귀무가설을 검정한다.
| \(H_0\) | \(H_1\) | 기각 기준 |
| \(\beta = \beta_0\) | \(\beta > \beta_0\) | \(t_1 \geq t_{\alpha, (n-2)}\) |
| \(\beta = \beta_0\) | \(\beta < \beta_0\) | \(t_1 \leq -t_{\alpha, (n-2)}\) |
| \(\beta = \beta_0\) | \(\beta \neq \beta_0\) | \(|t_1| \geq t_{\alpha/2, (n-2)}\) |
(3) 검정통계량
a) 검정통계량 \( t_1 \) 은 다음과 같이 계산된다.
\[
t_1 = \frac{\hat{\beta}_1 - \beta_0}{\text{표준 오차}(\hat{\beta}_1)}
\]
b) 표준 오차(Standard Error)는 기울기의 변동성을 측정하며, 다음과 같이 표현된다.
\[
\text{표준 오차}(\hat{\beta}_1) = \sqrt{\frac{ \hat{\sigma}^2 }{ (n-2) \sum (x_i - \bar{x})^2 }}
\]
c) \( \hat{\sigma}^2 \) 는 잔차(Residual)의 분산이며, 자유도 \( n-2 \) 를 사용한 t-분포를 따른다.
d) 유의수준 \( \alpha \) 에 대해 기각 기준:
- 단측 검정: \( t_1 \geq t_{\alpha, (n-2)} \) 또는 \( t_1 \leq -t_{\alpha, (n-2)} \)
- 양측 검정: \( |t_1| \geq t_{\alpha/2, (n-2)} \)
# 회귀계수의 검정통계량 증명과정(더보기)
회귀 계수 검정 통계량 \( t_1 \)의 유도 과정
1. 단순 선형 회귀 모델
단순 선형 회귀 모델은 다음과 같이 주어진다.
\[
Y_i = \beta_0 + \beta_1 X_i + \epsilon_i, \quad i = 1, 2, \dots, n
\]
여기서
- \( Y_i \) : 종속 변수 (반응 변수)
- \( X_i \) : 독립 변수 (설명 변수)
- \( \beta_0, \beta_1 \) : 회귀 계수 (모집단의 모수)
- \( \epsilon_i \sim N(0, \sigma^2) \) : 오차 항, 독립이고 정규 분포를 따른다고 가정
우리의 목표는 기울기 \( \beta_1 \) 에 대한 가설 검정을 수행하는 것이다.
2. 최소제곱법(OLS, Ordinary Least Squares)를 이용한 회귀 계수 추정
최소제곱법을 이용하면 회귀 계수 \( \beta_1 \) 에 대한 추정량 \( \hat{\beta}_1 \) 은 다음과 같이 주어진다.
\[
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2}
\]
이때, 분자 부분을 공분산 \( S_{XY} \), 분모 부분을 분산 \( S_X^2 \) 로 나타내면,
\[
\hat{\beta}_1 = \frac{S_{XY}}{S_X^2}
\]
여기서,
\[
S_{XY} = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
\]
\[
S_X^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2
\]
3. 회귀 계수 검정 가설 설정
가설 검정에서는 다음과 같은 귀무가설과 대립가설을 설정한다.
- 귀무가설 (\( H_0 \)) : \( \beta_1 = \beta_0 \) (독립 변수 \( X \) 가 종속 변수 \( Y \) 에 영향을 미치지 않는다.)
- 대립가설 (\( H_1 \)) :
- \( H_1: \beta_1 > \beta_0 \) (단측 검정, 오른쪽)
- \( H_1: \beta_1 < \beta_0 \) (단측 검정, 왼쪽)
- \( H_1: \beta_1 \neq \beta_0 \) (양측 검정)
4. 검정통계량 \( t_1 \) 유도
회귀 계수의 표본 분포는 다음과 같이 정리된다.
\[
\hat{\beta}_1 \sim N \left( \beta_1, \frac{\sigma^2}{\sum (X_i - \bar{X})^2} \right)
\]
분산을 모를 경우, 표본의 잔차를 이용하여 불편 추정량을 사용한다.
잔차(residual) \( \hat{\epsilon}_i \)는 다음과 같다.
\[
\hat{\epsilon}_i = Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i
\]
잔차의 분산은 다음과 같이 추정한다.
\[
\hat{\sigma}^2 = \frac{\sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2}{n-2} = \frac{\sum_{i=1}^{n} \hat{\epsilon}_i^2}{n-2}
\]
이제 표준 오차(Standard Error, SE)를 정의하면,
\[
\text{SE}(\hat{\beta}_1) = \sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}}
\]
따라서, 검정 통계량 \( t_1 \) 은 다음과 같이 정의된다.
\[
t_1 = \frac{\hat{\beta}_1 - \beta_0}{\text{SE}(\hat{\beta}_1)}
\]
이 검정 통계량은 자유도 \( n-2 \) 를 가지는 t-분포를 따른다.
\[
t_1 \sim t(n-2)
\]
5. 기각 기준
유의수준 \( \alpha \) 에 대해,
- 단측 검정 (오른쪽) : \( t_1 \geq t_{\alpha, (n-2)} \)이면 \( H_0 \) 기각
- 단측 검정 (왼쪽) : \( t_1 \leq -t_{\alpha, (n-2)} \)이면 \( H_0 \) 기각
- 양측 검정 : \( |t_1| \geq t_{\alpha/2, (n-2)} \)이면 \( H_0 \) 기각
6. 요약정리
1. 회귀 계수 \( \beta_1 \) 를 검정하기 위해 t-통계량을 사용하며, 이는 표본의 표준 오차를 기반으로 한다.
2. 잔차의 분산을 이용하여 표준 오차를 추정하며, 자유도 \( n-2 \) 를 가지는 t-분포를 따른다.
3. 가설 검정을 통해 독립 변수 \( X \) 가 종속 변수 \( Y \) 에 유의미한 영향을 미치는지를 판단할 수 있다.
3) 상관 계수에 대한 검정 (Tests About Correlation Coefficient)
(1) 두 변수 \( X \) 와 \( Y \) 가 이변량 정규 분포를 따를 때, 상관 계수 \( \rho \) 를 검정할 수 있다.
(2) 귀무가설: \( H_0: \rho = 0 \) (두 변수는 선형 관계가 없다.)
(3) 검정통계량:
\[
t = \frac{r \sqrt{n-2}}{\sqrt{1 - r^2}}
\]
(4) 기각 기준: \( |t| \geq t_{\alpha/2, (n-2)} \)
(5) 신뢰구간:
\[
\left[ \frac{1 + R - (1 - R) \exp(2c/\sqrt{n-3})}{1 + R + (1 - R) \exp(2c/\sqrt{n-3})},
\frac{1 + R - (1 - R) \exp(-2c/\sqrt{n-3})}{1 + R + (1 - R) \exp(-2c/\sqrt{n-3})} \right]
\]
# 상관계수 검정 더보기
1. 상관 계수 \( \rho \) 에 대한 검정
1) 이변량 정규 분포와 상관 계수
(1) 두 확률 변수 \( X \) 와 \( Y \) 가 이변량 정규 분포를 따를 때, 상관 계수 \( \rho \) 는 다음을 의미한다.
- \( \rho = 0 \)이면 \( X \) 와 \( Y \) 는 독립이다.
- \( \rho \neq 0 \)이면 \( X \) 와 \( Y \) 는 선형 관계를 가진다.
(2) 모집단 상관 계수 \( \rho \) 에 대한 검정을 수행하는 방법을 정리한다.
2) 표본 상관 계수 \( R \) 정의
표본 데이터 \( (X_1, Y_1), (X_2, Y_2), \dots, (X_n, Y_n) \)가 주어졌을 때, 표본 상관 계수 \( R \) 은 다음과 같이 정의된다.
\[
R = \frac{S_{XY}}{S_X S_Y}
\]
여기서,
- 공분산:
\[
S_{XY} = \frac{1}{n - 1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
\]
- 표본 표준편차:
\[
S_X = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (X_i - \bar{X})^2},
\quad
S_Y = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (Y_i - \bar{Y})^2}
\]
3) 상관 계수 검정 가설 설정
- 귀무가설 (\( H_0 \)) : \( \rho = 0 \) (두 변수는 독립이다.)
- 대립가설 (\( H_1 \)) :
- \( H_1: \rho > 0 \) (양의 상관 관계가 있다.)
- \( H_1: \rho < 0 \) (음의 상관 관계가 있다.)
- \( H_1: \rho \neq 0 \) (상관 관계가 존재한다.)
4) 검정통계량 \( T \) 유도
(1) 귀무가설이 참일 때, 즉 \( H_0: \rho = 0 \) 하에서,
- 표본 상관 계수 \( R \) 은 자유도 \( n-2 \) 를 가진 t-분포를 따른다.
(2) 검정통계량 \( T \) 은 다음과 같이 정의된다.
\[
T = \frac{R \sqrt{n - 2}}{\sqrt{1 - R^2}}
\]
- \( T \sim t(n - 2) \)
- 자유도 \( n-2 \) 인 t-분포를 따른다.
(3) 기각 기준
- 단측 검정 (\( \rho > 0 \) 또는 \( \rho < 0 \)) : \( T \geq t_{\alpha, (n-2)} \) 또는 \( T \leq -t_{\alpha, (n-2)} \)
- 양측 검정 (\( \rho \neq 0 \)) : \( |T| \geq t_{\alpha/2, (n-2)} \)
2. 상관 계수 \( R \) 의 분포 유도
1) 조건부 정규 분포와 최소제곱 추정량
(1) 이변량 정규 분포 가정
- 두 변수 \( X \) 와 \( Y \) 가 이변량 정규 분포를 따르고, 모집단 상관 계수 \( \rho = 0 \) 이면,
- \( Y \) 는 \( X \) 와 독립적이며, 선형 회귀 모델이 다음과 같이 주어진다.
\[
Y_i = \beta_0 + \beta_1 X_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2)
\]
(2) 최소제곱법(OLS) 추정량
\[
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2}
\]
(3) 회귀 계수 검정통계량 \( T \) 와 동일한 형태
\[
\hat{\beta}_1 = \frac{S_{XY}}{S_X^2}
\]
따라서, \( \hat{\beta}_1 \) 은 정규 분포를 따르고, 표준화하면 t-분포를 따른다.
3. 상관 계수 \( R \) 의 누적 분포 함수 \( G(r) \) 유도
1) 누적 분포 함수 \( G(r) \) 정의
누적 분포 함수는 다음과 같이 정의된다.
\[
G(r) = P(R \leq r)
\]
2) 변환을 이용한 유도 과정
위에서 \( R \) 이 자유도 \( n-2 \) 인 t-분포를 따른다는 사실을 이용하여 변환하면,
\[
G(r) = P \left( T \leq \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \right)
\]
이제 t-분포의 확률 밀도 함수 \( h(t) \)을 사용하여 적분 표현을 구할 수 있다.
\[
G(r) = \int_{-\infty}^{\frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}}} h(t) dt
\]
t-분포의 확률 밀도 함수 \( h(t) \) 는 다음과 같다.
\[
h(t) = \frac{\Gamma((n - 1)/2)}{\Gamma(1/2) \Gamma((n - 2)/2)} \cdot \frac{1}{\sqrt{n - 2}} \left( 1 + \frac{t^2}{n - 2} \right)^{-\frac{n - 1}{2}}
\]
이를 대입하면,
\[
G(r) = \int_{-\infty}^{\frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}}} \frac{\Gamma((n - 1)/2)}{\Gamma(1/2) \Gamma((n - 2)/2)} \cdot \frac{1}{\sqrt{n - 2}} \left( 1 + \frac{t^2}{n - 2} \right)^{-\frac{n - 1}{2}} dt
\]
4. 요약정리
1) 상관 계수 \( R \) 이 자유도 \( n - 2 \) 를 가진 t-분포를 따르는 과정을 증명하였다.
2) 누적 분포 함수 \( G(r) \) 을 t-분포의 밀도 함수를 이용하여 유도하였다.
3) 이제 \( G(r) \)의 미분을 통해 확률 밀도 함수 \( g(r) \) 를 유도할 수 있다.
# 회귀계수와 상관계수의 신뢰구간 유도 더보기
1. 신뢰구간 유도 개요
여기서는 다음 두 가지 신뢰구간을 유도한다.
1) 회귀 계수 \( \beta_1 \) 에 대한 신뢰구간
2) 상관 계수 \( \rho \) 에 대한 신뢰구간
2. 회귀 계수 \( \beta_1 \) 에 대한 신뢰구간 증명
1) 회귀 계수 \( \beta_1 \)의 점추정량
선형 회귀 모델이 다음과 같이 주어진다.
\[
Y_i = \beta_0 + \beta_1 X_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2)
\]
여기서, 최소제곱법(OLS) 추정량 \( \hat{\beta}_1 \) 은 다음과 같다.
\[
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2}
\]
2) \( \hat{\beta}_1 \)의 분포
(1) \( \hat{\beta}_1 \) 은 정규 분포를 따른다.
\[
\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{\sum (X_i - \bar{X})^2} \right)
\]
(2) 잔차의 분산 추정량
표본에서 모집단 분산 \( \sigma^2 \) 을 알 수 없으므로, 잔차 제곱합(Residual Sum of Squares, RSS) 을 사용하여
불편 분산 추정량 \( \hat{\sigma}^2 \) 을 구한다.
\[
\hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2
\]
여기서, \( n-2 \) 는 자유도이다.
(3) 표준화 과정
위 결과를 사용하여 검정통계량 \( T \) 를 정의하면
\[
T = \frac{\hat{\beta}_1 - \beta_1}{\text{표준 오차}(\hat{\beta}_1)}
\]
여기서, 표준 오차(SE) 는 다음과 같다.
\[
\text{SE}(\hat{\beta}_1) = \sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}}
\]
따라서 검정통계량 \( T \) 은 자유도 \( n-2 \) 인 t-분포를 따른다.
\[
T = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}}} \sim t(n-2)
\]
3) 회귀 계수 \( \beta_1 \) 의 신뢰구간
t-분포의 성질을 이용하면, 신뢰수준 \( 1 - \alpha \) 에 대한 신뢰구간은 다음과 같이 표현할 수 있다.
\[
P \left( -t_{\alpha/2, (n-2)} \leq \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}}} \leq t_{\alpha/2, (n-2)} \right) = 1 - \alpha
\]
이를 변형하면,
\[
P \left( \hat{\beta}_1 - t_{\alpha/2, (n-2)} \cdot \sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}} \leq \beta_1 \leq \hat{\beta}_1 + t_{\alpha/2, (n-2)} \cdot \sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}} \right) = 1 - \alpha
\]
따라서, \( \beta_1 \) 에 대한 \( 100(1-\alpha)\% \) 신뢰구간은 다음과 같다.
\[
\hat{\beta}_1 \pm t_{\alpha/2, (n-2)} \cdot \sqrt{\frac{\hat{\sigma}^2}{\sum (X_i - \bar{X})^2}}
\]
3. 상관 계수 \( \rho \) 에 대한 신뢰구간 증명
1) 상관 계수 \( R \) 의 정의
표본 상관 계수 \( R \) 은 다음과 같이 정의된다.
\[
R = \frac{S_{XY}}{S_X S_Y}
\]
2) \( R \) 의 분포
- 귀무가설 \( H_0: \rho = 0 \) 하에서,
- 표본 상관 계수 \( R \) 는 자유도 \( n-2 \) 를 가진 t-분포를 따른다.
- 검정통계량 \( T \) 는 다음과 같다.
\[
T = \frac{R \sqrt{n - 2}}{\sqrt{1 - R^2}} \sim t(n - 2)
\]
3) 피셔 변환을 이용한 신뢰구간 유도
(1) 변환을 통한 정규성 확보
- \( R \) 은 정규성을 가지지 않으므로, 피셔의 Z-변환을 적용한다.
\[
W = \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right)
\]
- 이때, \( W \) 은 정규 분포를 근사적으로 따른다.
\[
W \sim N \left( \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right), \frac{1}{n - 3} \right)
\]
(2) 신뢰구간 변형
\[
Z = \frac{W - \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right)}{\frac{1}{\sqrt{n-3}}} \sim N(0,1)
\]
\( 100(1-\alpha)\% \) 신뢰구간은 다음과 같다.
\[
P \left( -z_{\alpha/2} \leq \frac{W - \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right)}{\frac{1}{\sqrt{n-3}}} \leq z_{\alpha/2} \right) = 1 - \alpha
\]
이를 정리하면,
\[
P \left( \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right) - z_{\alpha/2} \frac{1}{\sqrt{n-3}} \leq \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right) \leq \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right) + z_{\alpha/2} \frac{1}{\sqrt{n-3}} \right) = 1 - \alpha
\]
마지막으로 역변환을 수행하면, \( \rho \) 에 대한 신뢰구간은 다음과 같다.
\[
\left[
\frac{1 + R - (1 - R) e^{2c/\sqrt{n-3}}}{1 + R + (1 - R) e^{2c/\sqrt{n-3}}},
\frac{1 + R - (1 - R) e^{-2c/\sqrt{n-3}}}{1 + R + (1 - R) e^{-2c/\sqrt{n-3}}}
\right]
\]
2. 예제
1) 문제
(1) 회귀 계수 \( \beta_1 \) 에 대한 신뢰구간
심리학 시험에서 10명의 학생을 대상으로 예비 시험 점수 \( X \) 와 기말 시험 점수 \( Y \) 를 수집했다.
다음 데이터가 주어졌을 때, 회귀 계수 \( \beta_1 \) 에 대한 95% 신뢰구간을 구하시오.
| 학생 번호 | 예비 시험 점수 \( X \) | 기말 시험 점수 \( Y \) |
|---------|------------------|------------------|
| 1 | 230 | 8.1 |
| 2 | 282 | 6.2 |
| 3 | 225 | 7.8 |
| 4 | 300 | 6.4 |
| 5 | 375 | 4.7 |
| 6 | 220 | 7.7 |
| 7 | 322 | 6.6 |
| 8 | 250 | 7.0 |
| 9 | 190 | 8.4 |
| 10 | 315 | 5.3 |
(2) 상관 계수 \( \rho \) 에 대한 신뢰구간
위 데이터에서 표본 상관 계수 \( R \) 을 계산하고, \( \rho \) 에 대한 95% 신뢰구간을 구하시오.
(3) 유의성 검정
귀무가설 \( H_0: \beta_1 = 0 \) 에 대해 유의수준 \( \alpha = 0.05 \) 로 t-검정을 수행하시오.
2) 답안
1. 기본 통계량 계산
(1) 데이터
- \( X \): 230, 282, 225, 300, 375, 220, 322, 250, 190, 315
- \( Y \): 8.1, 6.2, 7.8, 6.4, 4.7, 7.7, 6.6, 7.0, 8.4, 5.3
- 표본 크기: \( n = 10 \)
(2) 평균
\[
\bar{X} = \frac{230+282+\cdots+315}{10} = \frac{2709}{10} = 270.9,\quad
\bar{Y} = \frac{8.1+6.2+\cdots+5.3}{10} = \frac{68.2}{10} = 6.82.
\]
(3) 편차 및 제곱합
각 관측치에 대해 \( X_i - \bar{X} \)와 \( Y_i - \bar{Y} \)를 구한 후,
- \( S_{xx} = \sum_{i=1}^{10}(X_i-\bar{X})^2 \)
\[
S_{xx} \approx 29714.90,
\]
- \( S_{xy} = \sum_{i=1}^{10}(X_i-\bar{X})(Y_i-\bar{Y}) \)
\[
S_{xy} \approx -591.78,
\]
- \( S_{yy} = \sum_{i=1}^{10}(Y_i-\bar{Y})^2 \)
\[
S_{yy} \approx 13.316.
\]
2. 회귀분석 및 회귀 계수 \( \beta_1 \)의 신뢰구간 계산
(1) 회귀 계수 추정
회귀모형:
\[
Y = \beta_0 + \beta_1 X + \varepsilon.
\]
기울기 추정치는
\[
\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} \approx \frac{-591.78}{29714.90} \approx -0.01993.
\]
(2) 잔차제곱합과 모분산 추정
- 잔차제곱합:
\[
\text{SSE} = S_{yy} - \hat{\beta}_1 S_{xy} \approx 13.316 - (-0.01993\times -591.78) \approx 13.316 - 11.78 = 1.536.
\]
- 자유도: \( n - 2 = 8 \).
- 모분산 추정:
\[
\hat{\sigma}^2 = \frac{1.536}{8} \approx 0.192,\quad \hat{\sigma} \approx \sqrt{0.192} \approx 0.438.
\]
(3) 표준오차와 95% 신뢰구간
- 회귀 계수의 표준오차:
\[
\text{SE}(\hat{\beta}_1) = \sqrt{\frac{\hat{\sigma}^2}{S_{xx}}} \approx \sqrt{\frac{0.192}{29714.90}} \approx 0.00254.
\]
- 자유도 8에서 \( t_{0.025,8} \approx 2.306 \).
- 따라서 95% 신뢰구간은
\[
\hat{\beta}_1 \pm t_{0.025,8}\times \text{SE}(\hat{\beta}_1)
\]
\[
-0.01993 \pm 2.306\times 0.00254 \quad \Longrightarrow \quad -0.01993 \pm 0.00585.
\]
- 하한: \( -0.01993 - 0.00585 \approx -0.02578 \)
- 상한: \( -0.01993 + 0.00585 \approx -0.01408 \)
→ 회귀 계수 \( \beta_1 \) 95% 신뢰구간: \([-0.02578,\, -0.01408]\)
(4) t-검정
- 검정 통계량:
\[
t = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} \approx \frac{-0.01993}{0.00254} \approx -7.84865.
\]
- 임계값 (자유도 8): \( t_{0.025,8} \approx 2.306 \)
- \( |t| \approx 7.84865 > 2.306 \)이므로 귀무가설 \( H_0: \beta_1=0 \)는 기각되며, p-value는 약 \( 5.009\times10^{-5} \)입니다.
3. 상관 계수 \( \rho \)의 95% 신뢰구간 계산 (피셔 변환 사용)
(1) 표본 상관계수 계산
\[
r = \frac{S_{xy}}{\sqrt{S_{xx}\,S_{yy}}} \approx \frac{-591.78}{\sqrt{29714.90\times 13.316}} \approx \frac{-591.78}{629.0} \approx -0.941.
\]
(2) 피셔의 z 변환
- 변환 공식:
\[
W = \frac{1}{2}\ln\left(\frac{1+r}{1-r}\right).
\]
- \( r = -0.941 \)인 경우,
\[
\frac{1+r}{1-r} = \frac{1-0.941}{1+0.941} = \frac{0.059}{1.941} \approx 0.03038,
\]
\[
W \approx \frac{1}{2}\ln(0.03038) \approx \frac{1}{2}\times(-3.494) \approx -1.747.
\]
- 표준오차:
\[
\text{SE}_W = \frac{1}{\sqrt{n-3}} = \frac{1}{\sqrt{7}} \approx 0.378.
\]
(3) z-공간에서의 95% 신뢰구간
\[
W \pm 1.96\,\text{SE}_W \quad \Longrightarrow \quad -1.747 \pm 1.96\times 0.378.
\]
계산하면,
\[
1.96\times 0.378 \approx 0.74084,
\]
- 하한: \( -1.747 - 0.74084 \approx -2.48784 \)
- 상한: \( -1.747 + 0.74084 \approx -1.00616 \)
(4) 역변환 (z → r)
- 하한:
\[
r_{\text{lower}} = \frac{\exp(2\times(-2.48784))-1}{\exp(2\times(-2.48784))+1}.
\]
\(2\times(-2.48784) \approx -4.97568,\; \exp(-4.97568)\approx 0.00691,\)
\[
r_{\text{lower}} \approx \frac{0.00691-1}{0.00691+1} \approx -0.98627.
\]
- 상한:
\[
r_{\text{upper}} = \frac{\exp(2\times(-1.00616))-1}{\exp(2\times(-1.00616))+1}.
\]
\(2\times(-1.00616) \approx -2.01232,\; \exp(-2.01232)\approx 0.1339,\)
\[
r_{\text{upper}} \approx \frac{0.1339-1}{0.1339+1} \approx -0.7634.
\]
→ 상관 계수 \( \rho \)의 95% 신뢰구간: \((-0.98627,\; -0.7634)\)
최종 계산 결과
- 회귀 계수 \( \beta_1 \) 추정치:
\(\hat{\beta}_1 \approx -0.01993\)
- 회귀 계수 \( \beta_1 \) 95% 신뢰구간:
\([-0.02578,\, -0.01408]\)
- t-검정 결과:
- t-값: \(-7.84865\)
- 임계값: \(2.306\)
- p-value: 약 \(5.009\times10^{-5}\)
- 표본 상관계수: \(r \approx -0.941\)
- 상관 계수 \( \rho \) 95% 신뢰구간:
\((-0.98627,\; -0.7634)\)
# R code
# 데이터 입력
X <- c(230, 282, 225, 300, 375, 220, 322, 250, 190, 315)
Y <- c(8.1, 6.2, 7.8, 6.4, 4.7, 7.7, 6.6, 7.0, 8.4, 5.3)
# 회귀분석 수행
model <- lm(Y ~ X)
summary(model)
# 회귀 계수 신뢰구간 (절편 및 기울기)
conf_int <- confint(model, level = 0.95)
print("회귀 계수 신뢰구간:")
print(conf_int)
# 상관 계수와 신뢰구간 계산
cor_result <- cor.test(X, Y)
print("상관 계수 및 신뢰구간:")
print(cor_result)
# t-검정 (회귀 계수에 대한 t-검정)
t_value <- coef(summary(model))["X", "t value"]
t_critical <- qt(0.975, df = length(X) - 2)
p_value <- 2 * pt(-abs(t_value), df = length(X) - 2)
cat("t-값:", t_value, "\n")
cat("임계값:", t_critical, "\n")
cat("p-value:", p_value, "\n")
# 결과 출력
Call:
lm(formula = Y ~ X)
Residuals:
Min 1Q Median 3Q Max
-0.64174 -0.21059 -0.03898 0.13612 0.79767
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.215044 0.701163 17.421 1.20e-07 ***
X -0.019915 0.002537 -7.849 5.01e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4374 on 8 degrees of freedom
Multiple R-squared: 0.8851, Adjusted R-squared: 0.8707
F-statistic: 61.6 on 1 and 8 DF, p-value: 5.009e-05
[1] "\355\232\214\352\267\200 \352\263\204\354\210\230 \354\213\240\353\242\260\352\265\254\352\260\204:"
2.5 % 97.5 %
(Intercept) 10.59815846 13.83193015
X -0.02576655 -0.01406398
[1] "\354\203\201\352\264\200 \352\263\204\354\210\230 \353\260\217 \354\213\240\353\242\260\352\265\254\352\260\204:"
Pearson's product-moment correlation
data: X and Y
t = -7.8486, df = 8, p-value = 5.009e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9862247 -0.7632530
sample estimates:
cor
-0.9407761
t-값: -7.848648
임계값: 2.306004
p-value: 5.009141e-05
[Execution complete with exit code 0]
import numpy as np
import scipy.stats as stats
import statsmodels.api as sm
# 데이터 입력
X = np.array([230, 282, 225, 300, 375, 220, 322, 250, 190, 315])
Y = np.array([8.1, 6.2, 7.8, 6.4, 4.7, 7.7, 6.6, 7.0, 8.4, 5.3])
# 회귀 분석 수행
X_with_const = sm.add_constant(X)
model = sm.OLS(Y, X_with_const).fit()
# 회귀 계수 신뢰구간 계산 (절편 및 기울기)
conf_int = model.conf_int(alpha=0.05)
print("회귀 계수 신뢰구간:")
print(conf_int)
# 상관 계수 및 신뢰구간 계산
r, p_value_r = stats.pearsonr(X, Y)
z = 0.5 * np.log((1 + r) / (1 - r))
z_critical = stats.norm.ppf(0.975)
ci_lower = (np.exp(2 * (z - z_critical / np.sqrt(len(X) - 3))) - 1) / (np.exp(2 * (z - z_critical / np.sqrt(len(X) - 3))) + 1)
ci_upper = (np.exp(2 * (z + z_critical / np.sqrt(len(X) - 3))) - 1) / (np.exp(2 * (z + z_critical / np.sqrt(len(X) - 3))) + 1)
print("상관 계수 신뢰구간:", (ci_lower, ci_upper))
# t-검정 (회귀 계수에 대한 t-검정)
t_value = model.tvalues[1]
t_critical = stats.t.ppf(0.975, df=len(X)-2)
p_value_t = 2 * (1 - stats.t.cdf(abs(t_value), df=len(X)-2))
print("t-값:", t_value, "임계값:", t_critical, "p-value:", p_value_t)
# 결과 출력
회귀 계수 신뢰구간:
[[10.59815846 13.83193015]
[-0.02576655 -0.01406398]]
상관 계수 신뢰구간: (-0.9862246572766264, -0.7632530184982087)
t-값: -7.848648107419021 임계값: 2.306004135204166 p-value: 5.009141076350865e-05
[참조] 자유도
1. 자유도란?
자유도(degrees of freedom, df)는 통계량을 계산할 때 자유롭게 변할 수 있는 값의 개수를 의미한다.
2. 단순 선형 회귀에서 자유도 분석
단순 선형 회귀 모델은 다음과 같다.
\[
Y = \beta_0 + \beta_1 X + \epsilon
\]
여기서
- \( Y \) : 종속 변수
- \( X \) : 독립 변수
- \( \beta_0 \), \( \beta_1 \) : 회귀 계수 (모델이 추정하는 값)
- \( \epsilon \) : 오차(잔차, Residual)
1) 전체 데이터의 자유도
표본의 크기가 \( n \)일 때, 원래의 데이터가 가질 수 있는 자유도는 \( n \)개다.
즉, \( n \)개의 \( Y \) 값이 독립적으로 변할 수 있다.
\[
\text{총 자유도} = n
\]
2) 회귀 모델이 추정하는 두 개의 계수 \(\beta_0\), \(\beta_1\)
단순 선형 회귀에서는 두 개의 모수를 추정해야 한다.
즉, 절편 \(\beta_0\)와 기울기 \(\beta_1\)를 결정하기 위해 두 개의 자유도를 사용한다.
\[
\text{사용된 자유도} = 2
\]
3) 잔차(Residuals)의 자유도
잔차(Residual)는 다음과 같이 정의된다.
\[
e_i = Y_i - \hat{Y}_i
\]
여기서
- \( e_i \) : 잔차
- \( \hat{Y}_i \) : 회귀식으로 예측한 값
잔차를 계산할 때, 전체 \( n \)개의 데이터 중에서 2개의 회귀 계수(절편과 기울기)를 이미 사용했기 때문에, 잔차의 자유도는 \( n - 2 \)가 된다.
\[
\text{잔차의 자유도} = n - 2
\]
3. 비교: 평균 계산과 회귀 분석의 자유도 차이
- 평균 계산의 경우:
단순히 표본 평균을 계산하는 경우, 자유도는 \( n - 1 \)이다.
이는 평균을 계산할 때 1개의 값을 사용했기 때문이다.
- 회귀 분석의 경우:
단순 선형 회귀에서는 절편과 기울기 두 개의 값을 추정해야 하므로, 자유도가 하나 더 줄어 \( n - 2 \)가 된다.
4. 다중 회귀의 경우
만약 독립 변수가 \( k \)개인 다중 선형 회귀 모델
\[
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon
\]
을 고려하면,
- 전체 자유도는 \( n \)
- \( k + 1 \)개의 회귀 계수를 추정해야 하므로
- 잔차의 자유도는 \( n - (k + 1) \)가 된다.
\[
\text{잔차의 자유도} = n - (k + 1)
\]
5. 결론
단순 선형 회귀에서 잔차의 자유도가 \( n-2 \)인 이유는
1. 원래 \( Y \) 값의 자유도가 \( n \)인데,
2. 절편 \( \beta_0 \)과 기울기 \( \beta_1 \) 두 개를 추정하면서 자유도가 2개 소모되었기 때문이다.
즉,
\[
\text{총 자유도} - \text{사용된 자유도} = n - 2
\]
다.
[참조]오차와 표준오차의 차이
1. 오차(Error)와 표준오차(Standard Error)의 차이
(1) 오차(Error, \(\epsilon\))
- 오차는 실제 값(\( Y \))과 예측 값(\( \hat{Y} \))의 차이를 의미합니다.
- 수식으로 표현하면:
\[
\epsilon_i = Y_i - \hat{Y}_i
\]
여기서
- \( Y_i \) : 실제 관측값
- \( \hat{Y}_i \) : 회귀식을 이용한 예측값
- 잔차(Residual, \( e_i \)):
오차는 모집단 수준에서 정의되지만, 실제로는 표본 데이터만 사용할 수 있기 때문에 잔차(Residual) 를 대신 사용합니다.
\[
e_i = Y_i - \hat{Y}_i
\]
(2) 잔차의 표준편차 (Residual Standard Deviation)
- 여러 개의 잔차 \( e_i \) 들이 있을 때, 그 표준편차를 계산하면 잔차의 표준편차(Residual Standard Deviation, \( \hat{\sigma}_\epsilon \)) 가 됩니다.
\[
\hat{\sigma}_\epsilon = \sqrt{\frac{\sum (Y_i - \hat{Y}_i)^2}{n-2}}
\]
여기서 자유도가 \( n - 2 \) 인 이유는 앞서 설명한 것처럼, 회귀 분석에서 절편과 기울기 두 개의 값을 추정하면서 자유도를 2개 소모했기 때문입니다.
(3) 표준오차(Standard Error, SE)
- 표준오차는 회귀 계수(\( \beta \))의 신뢰성을 평가하는 데 사용됩니다.
- 표준오차는 오차를 표준화한 것이 맞지만, 단순한 오차의 표준편차가 아니라 회귀 계수의 추정값이 얼마나 안정적인지를 측정하는 값입니다.
- 회귀 계수 \( \beta_1 \)의 표준오차(SE of \(\hat{\beta}_1\)):
\[
\text{SE}(\hat{\beta}_1) = \sqrt{\frac{ \hat{\sigma}_\epsilon^2 }{ \sum (X_i - \bar{X})^2 }}
\]
여기서
- \( \hat{\sigma}_\epsilon^2 \) : 잔차의 분산 (Residual Variance)
- \( \sum (X_i - \bar{X})^2 \) : 독립 변수 \( X \) 값들의 분산
- 표준오차가 작을수록 회귀 계수의 추정값이 안정적이며, 신뢰 구간이 좁아진다.
2. 정리
| 개념 | 수식 | 설명 |
| 오차 (\(\epsilon\)) | \( \epsilon_i = Y_i - \hat{Y}_i \) | 실제 값과 예측 값의 차이 |
| 잔차 (\(e\)) | \( e_i = Y_i - \hat{Y}_i \) | 표본 데이터를 이용한 오차의 추정치 |
| 잔차의 표준편차 (\(\hat{\sigma}_\epsilon\)) | \( \sqrt{\frac{\sum (Y_i - \hat{Y}_i)^2}{n-2}} \) | 잔차의 변동성 (회귀 모델의 적합도를 평가하는 데 사용) |
| 표준오차 (\(\text{SE}(\hat{\beta}_1)\)) | \( \sqrt{\frac{ \hat{\sigma}_\epsilon^2 }{ \sum (X_i - \bar{X})^2 }} \) | 회귀 계수의 신뢰도를 측정하는 값 |
3. 결론
- 오차를 표준화한 것이 표준오차(SE)라는 표현은 맞지만, 정확히 어떤 표준오차를 의미하는지 구체적으로 구분해야 한다.
- 잔차의 표준편차는 회귀 모델의 오차를 측정하는 지표이고,
- 표준오차(SE) 는 회귀 계수의 신뢰성을 평가하는 지표이다.
- 즉, "오차의 표준편차"와 "회귀 계수의 표준오차"는 다르다!
'통계' 카테고리의 다른 글
| 9.7 Statistical Quality Control (0) | 2025.01.03 |
|---|---|
| 9.5 General Factorial and 2k Factorial Designs (0) | 2025.01.03 |
| 9.4 Two-Way Analysis of Variance (0) | 2025.01.03 |
| 9.3 One-Factor Analysis of Variance (0) | 2025.01.03 |
| 9.2 Contingency Tables (0) | 2025.01.03 |