* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 선형 회귀 분석 확장
(1) 개요
a) 본 절에서는 선형 회귀 모델에서 중요한 양들에 대한 신뢰구간을 구한다.
b) 모델은 기존 6.5절의 표기법과 가정을 사용하여 확장된다. (참조 1)
2) 잔차 제곱합과 분해식
(1) 잔차의 분해식
잔차 제곱합을 변형하면 다음과 같은 관계가 성립한다.
\[
\sum_{i=1}^{n} [Y_i - \alpha - \beta(x_i - \bar{x})]^2 =
\sum_{i=1}^{n} \left\{ (\hat{\alpha} - \alpha) + (\hat{\beta} - \beta)(x_i - \bar{x}) + [Y_i - \hat{\alpha} - \hat{\beta}(x_i - \bar{x})] \right\}^2
\]
\[
= n(\hat{\alpha} - \alpha)^2 + (\hat{\beta} - \beta)^2 \sum_{i=1}^{n} (x_i - \bar{x})^2 + \sum_{i=1}^{n} [Y_i - \hat{\alpha} - \hat{\beta}(x_i - \bar{x})]^2
\]
3) 회귀 계수의 분포
(1) 회귀 계수와 종속 변수의 정규성
a) 단순 선형 회귀 모형은 다음과 같이 주어진다.
\[
Y_i = \alpha + \beta x_i + \epsilon_i, \quad i = 1, 2, \dots, n
\]
b) 오차항(Residual) \( \epsilon_i \) 는 정규성을 가진다고 가정한다.
\[
\epsilon_i \sim N(0, \sigma^2)
\]
c) 따라서 종속 변수 \( Y_i \) 또한 정규 분포를 따른다.
\[
Y_i \sim N(\alpha + \beta x_i, \sigma^2)
\]
d) 최소제곱법(OLS, Ordinary Least Squares)을 이용하여 회귀 계수 \( \hat{\alpha}, \hat{\beta} \) 를 추정할 수 있으며,
이들 역시 정규성을 가진다.
(2) 정규성을 기반으로 한 카이제곱 분포 유도
a) 카이제곱분포를 유도하기 위해 양변을 \( \sigma^2 \) 로 나누면 다음 세 개의 분포가 성립한다.
\[
\sum_{i=1}^{n}\frac{[Y_i - \alpha - \beta(x_i - \bar{x})]^2}{\sigma^2} \sim \chi^2(n),
\]
\[
\frac{(\hat{\alpha} - \alpha)^2}{\sigma^2/n} \sim \chi^2(1),
\]
\[
\frac{(\hat{\beta} - \beta)^2}{\sigma^2 / \sum_{i=1}^{n} (x_i - \bar{x})^2} \sim \chi^2(1).
\]
[추가] 위 세가지 항 외에 나머지 항은 잔차 제곱항(RSS)을 변형한 형태이다. 잔차는 위에서 정의한 바와 같으므로,
잔차 제곱항을 \( \sigma^2 \) 로 나눈 식은
\[
\sum_{i=1}^{n} \frac{[Y_i - \hat{\alpha} - \hat{\beta}(x_i - \bar{x})]^2}{\sigma^2} \sim \chi^2(n-2)
\]
즉, 이 항은 자유도가 \( n-2 \) 인 카이제곱 분포를 따른다.
카이제곱 분포의 정의를 다시 보면, 표준 정규 분포를 따르는 변수 \( Z_i \) 를 제곱한 값들의 합으로 표현된다.
\[
\sum_{i=1}^{k} Z_i^2 \sim \chi^2(k), \quad Z_i \sim N(0,1)
\]
여기서, 제곱을 했기 때문에 모든 값이 0 이상이 된다. 즉,
\[
\chi^2(k) \geq 0, \quad \forall k
\]
이는 곧 자유도 \( n-2 \) 인 카이제곱 분포도 항상 0보다 크다는 것을 의미한다.
b) 선택된 변수들은 회귀 계수의 변동성을 평가하기 위해 도입되었으며,
이는 회귀 분석에서 신뢰구간을 설정하고 가설 검정을 수행하는 데 필수적이다.
(3) 왜 카이제곱 분포가 되는가?
a) 일반적으로 정규 분포를 따르는 확률 변수 \( Z \) 는 다음 성질을 가진다.
\[
\frac{(Z - E[Z])^2}{\text{Var}(Z)} \sim \chi^2(1)
\]
즉, 정규 분포를 따르는 변수의 제곱은 자유도 1인 카이제곱 분포를 따른다.
b) 이를 회귀 분석에 적용하면 다음과 같은 결과를 얻는다.
- 첫 번째 식
\[
Y_i - \alpha - \beta(x_i - \bar{x}) = \epsilon_i
\]
\[
\frac{\epsilon_i^2}{\sigma^2} \sim \chi^2(1)
\]
- 두 번째 식
\[
\hat{\alpha} \sim N\left(\alpha, \frac{\sigma^2}{n}\right)
\]
\[
\frac{(\hat{\alpha} - \alpha)^2}{\sigma^2/n} \sim \chi^2(1)
\]
- 세 번째 식
\[
\hat{\beta} \sim N\left(\beta, \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \right)
\]
\[
\frac{(\hat{\beta} - \beta)^2}{\sigma^2 / \sum_{i=1}^{n} (x_i - \bar{x})^2} \sim \chi^2(1)
\]
(4) 결론
a) 회귀 계수 및 잔차는 정규성을 기반으로 하므로 카이제곱 분포를 따른다.
b) 이를 활용하여 신뢰구간을 설정하고, 회귀 계수에 대한 가설 검정을 수행할 수 있다.
4) 회귀 계수의 신뢰구간 (증명 : 참조1)
(1) 기울기 \( \beta \)의 신뢰구간
\[
T_1 = \frac{\hat{\beta} - \beta}{\sqrt{\frac{n\hat{\sigma}^2}{(n-2) \sum_{i=1}^{n} (x_i - \bar{x})^2}}} \sim t(n-2)
\]
\[
\hat{\beta} \pm t_{\gamma/2, n-2} \cdot \sqrt{\frac{n\hat{\sigma}^2}{(n-2) \sum_{i=1}^{n} (x_i - \bar{x})^2}}
\]
(2) 절편 \( \alpha \)의 신뢰구간
\[
\hat{\alpha} \pm t_{\gamma/2, n-2} \cdot \sqrt{\frac{\hat{\sigma}^2}{n-2}}
\]
5) 예측 구간과 신뢰구간
(1) 개별 예측값 \( Y \)의 구간
\[
P\left( \hat{\alpha} + \hat{\beta} (x_{n+1} - \bar{x}) - d t_{\gamma/2, n-2} \leq Y_{n+1} \leq \hat{\alpha} + \hat{\beta} (x_{n+1} - \bar{x}) + d t_{\gamma/2, n-2} \right) = 1 - \gamma
\]
(2) 평균 응답 \( \mu(x) \)의 신뢰구간
\[
P\left( \hat{\alpha} + \hat{\beta} (x - \bar{x}) - c t_{\gamma/2, n-2} \leq \mu(x) \leq \hat{\alpha} + \hat{\beta} (x - \bar{x}) + c t_{\gamma/2, n-2} \right) = 1 - \gamma
\]
(3) 예측 구간과 신뢰구간 비교
a) 예측 구간은 신뢰구간보다 항상 넓다.
b) 개별 예측값에는 추가적인 변동성이 포함되기 때문이다.
6) 요약 정리
- 이론적으로 회귀 계수의 변동성을 평가할 때 카이제곱 분포를 활용한다.
- 이를 기반으로 신뢰구간 및 예측구간을 설정하여 회귀 모델의 성능을 평가할 수 있다.
- 이러한 통계적 분석을 통해 모델이 얼마나 신뢰할 수 있는지를 결정할 수 있다.
[참조1]
1. 기울기 \( \beta \) 의 신뢰구간 증명
1) 점추정량 \( \hat{\beta} \) 의 분포 유도
최소제곱법(OLS)에 의해 기울기 \( \hat{\beta} \) 는 다음과 같이 주어진다.
\[
\hat{\beta} = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (Y_i - \bar{Y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}
\]
종속 변수 \( Y_i \) 가 정규성을 가지므로, \( \hat{\beta} \) 도 정규 분포를 따른다.
이제 기대값과 분산을 구해보자.
(1) 기대값 \( E[\hat{\beta}] \)
\[
E[\hat{\beta}] = E\left[ \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (Y_i - \bar{Y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \right]
\]
\[
= \frac{\sum_{i=1}^{n} (x_i - \bar{x}) E[Y_i - \bar{Y}]}{\sum_{i=1}^{n} (x_i - \bar{x})^2}
\]
여기서, \( E[Y_i] = \alpha + \beta x_i \) 이므로, \( E[\bar{Y}] = \alpha + \beta \bar{x} \) 가 된다.
따라서,
\[
E[Y_i - \bar{Y}] = (\alpha + \beta x_i) - (\alpha + \beta \bar{x}) = \beta (x_i - \bar{x}).
\]
이를 대입하면,
\[
E[\hat{\beta}] = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \beta (x_i - \bar{x})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \beta.
\]
즉, \( \hat{\beta} \) 는 불편추정량이다.
(2) 분산 \( \text{Var}(\hat{\beta}) \)
\[
\text{Var}(\hat{\beta}) = \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}.
\]
그러나 \( \sigma^2 \) 는 보통 알 수 없으므로, 잔차 제곱합을 이용해 불편분산추정량을 사용한다.
\[
\hat{\sigma}^2 = \frac{\sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2}{n-2}.
\]
따라서,
\[
\text{Var}(\hat{\beta}) \approx \frac{\hat{\sigma}^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}.
\]
2) 기울기의 t-분포 유도
이제 표준화하면,
\[
T_1 = \frac{\hat{\beta} - \beta}{\sqrt{\text{Var}(\hat{\beta})}} = \frac{\hat{\beta} - \beta}{\sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}}.
\]
여기서, \( \hat{\sigma}^2 \) 는 자유도가 \( n-2 \) 인 카이제곱 분포를 따르므로,
이 비율은 자유도 \( n-2 \) 인 t-분포를 따른다.
\[
T_1 = \frac{\hat{\beta} - \beta}{\sqrt{\frac{n\hat{\sigma}^2}{(n-2) \sum_{i=1}^{n} (x_i - \bar{x})^2}}} \sim t(n-2).
\]
따라서, 신뢰구간은 다음과 같이 얻어진다.
\[
\hat{\beta} \pm t_{\gamma/2, n-2} \cdot \sqrt{\frac{n\hat{\sigma}^2}{(n-2) \sum_{i=1}^{n} (x_i - \bar{x})^2}}.
\]
즉, 기울기 \( \beta \) 의 신뢰구간을 증명하였다.
2. 절편 \( \alpha \) 의 신뢰구간 증명
1) 절편 \( \hat{\alpha} \) 의 점추정량 분포 유도
최소제곱법(OLS)에 의해 절편 \( \hat{\alpha} \) 는 다음과 같이 주어진다.
\[
\hat{\alpha} = \bar{Y} - \hat{\beta} \bar{x}.
\]
(1) 기대값 \( E[\hat{\alpha}] \)
\[
E[\hat{\alpha}] = E[\bar{Y} - \hat{\beta} \bar{x}].
\]
앞서 \( E[\hat{\beta}] = \beta \) 임을 보였고, \( E[\bar{Y}] = \alpha + \beta \bar{x} \) 이므로,
\[
E[\hat{\alpha}] = (\alpha + \beta \bar{x}) - \beta \bar{x} = \alpha.
\]
즉, \( \hat{\alpha} \) 도 불편추정량이다.
(2) 분산 \( \text{Var}(\hat{\alpha}) \)
\[
\text{Var}(\hat{\alpha}) = \text{Var}(\bar{Y} - \hat{\beta} \bar{x}).
\]
표본 평균의 분산과 \( \hat{\beta} \) 의 분산을 고려하면,
\[
\text{Var}(\hat{\alpha}) = \frac{\sigma^2}{n} + \bar{x}^2 \text{Var}(\hat{\beta}).
\]
이를 \( \hat{\sigma}^2 \) 로 추정하면,
\[
\text{Var}(\hat{\alpha}) \approx \frac{\hat{\sigma}^2}{n} + \frac{\bar{x}^2 \hat{\sigma}^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}.
\]
이제 표준화하면,
\[
T_2 = \frac{\hat{\alpha} - \alpha}{\sqrt{\text{Var}(\hat{\alpha})}}.
\]
여기서 \( \hat{\sigma}^2 \) 가 자유도 \( n-2 \) 인 카이제곱 분포를 따르므로,
\[
T_2 = \frac{\hat{\alpha} - \alpha}{\sqrt{\frac{\hat{\sigma}^2}{n-2}}} \sim t(n-2).
\]
따라서, 신뢰구간은 다음과 같이 얻어진다.
\[
\hat{\alpha} \pm t_{\gamma/2, n-2} \cdot \sqrt{\frac{\hat{\sigma}^2}{n-2}}.
\]
즉, 절편 \( \alpha \) 의 신뢰구간도 증명되었다.
3. 결론
1) 기울기 \( \beta \) 의 신뢰구간:
\[
\hat{\beta} \pm t_{\gamma/2, n-2} \cdot \sqrt{\frac{n\hat{\sigma}^2}{(n-2) \sum_{i=1}^{n} (x_i - \bar{x})^2}}
\]
2) 절편 \( \alpha \) 의 신뢰구간:
\[
\hat{\alpha} \pm t_{\gamma/2, n-2} \cdot \sqrt{\frac{\hat{\sigma}^2}{n-2}}
\]
> t-분포를 따르는 이유는 잔차 제곱합을 이용한 분산 추정 과정에서 자유도가 \( n-2 \) 가 되기 때문이다.
> 기울기와 절편의 신뢰구간을 구하는 과정에서 공통적으로 분산을 추정하는 방법이 사용된다.
'통계' 카테고리의 다른 글
| 8.1 Tests About One Mean (0) | 2025.01.03 |
|---|---|
| 7.7 Resampling Methods (0) | 2025.01.03 |
| 7.5 Distribution-Free Confidence Intervals for Percentiles (0) | 2025.01.03 |
| 7.4 Sample Size (0) | 2025.01.03 |
| 7.3 Confidence Intervals for Proportions (0) | 2025.01.03 |