* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 정의 및 개요
Order Statistics(순서 통계량)이란 랜덤 표본에서 관측된 데이터를 크기 순서대로 정렬한 통계량을 의미한다. 이는 비모수적 추론(nonparametric inference)과 강건한 절차(robust procedures)에서 중요한 역할을 하며, 샘플 중앙값(sample median), 샘플 범위(sample range), 경험적 누적 분포 함수(empirical cumulative distribution function, cdf) 등을 결정하는 데 사용된다.
주어진 랜덤 표본 \( X_1, X_2, \dots, X_n \)이 연속형 확률 분포에서 독립적으로 추출되었다고 가정할 때, 표본을 크기순으로 정렬하여 \( Y_1, Y_2, \dots, Y_n \)이라 하면, 이를 순서 통계량(order statistics)이라 한다.
- \( Y_1 \): 가장 작은 값 (최소값)
- \( Y_2 \): 두 번째로 작은 값
- \(\dots\)
- \( Y_n \): 가장 큰 값 (최대값)
2) 누적 분포 함수(CDF)와 확률 밀도 함수(PDF)
순서 통계량 중에서 특정한 r번째 작은 값 \( Y_r \)의 누적 분포 함수(CDF)는 다음과 같이 주어진다:
\[G_r(y) = P(Y_r \leq y) = \sum_{k=r}^{n} \binom{n}{k} [F(y)]^k [1 - F(y)]^{n-k}\]
이 식은 특정 값 \( y \) 이하인 데이터가 최소한 r개 존재할 확률을 나타내며, 이는 이항 분포(binomial distribution)를 기반으로 한다.
확률 밀도 함수(PDF)는 다음과 같이 구할 수 있다:
\[g_r(y) = \frac{n!}{(r-1)! (n-r)!} [F(y)]^{r-1} [1 - F(y)]^{n-r} f(y)\]
이 식에서:
- \( F(y) \)는 확률 변수의 누적 분포 함수(CDF)
- \( f(y) \)는 확률 밀도 함수(PDF)
순서 통계량 중에서도 첫 번째 순서 통계량(최소값)과 마지막 순서 통계량(최대값)의 PDF는 각각 다음과 같이 표현된다.
- 최소값(\( Y_1 \))의 PDF:
\[g_1(y) = n[1 - F(y)]^{n-1} f(y)\]
- 최대값(\( Y_n \))의 PDF:
\[g_n(y) = n[F(y)]^{n-1} f(y)\]
이러한 식들은 특정 확률 분포를 따르는 샘플의 최소 또는 최대 값의 분포를 결정하는 데 유용하다.
2. 예제
1) 순서 통계량 구하기
5개의 독립적인 실험에서 얻은 관측값이 다음과 같다고 하자:
\[x_1 = 0.62, \quad x_2 = 0.98, \quad x_3 = 0.31, \quad x_4 = 0.81, \quad x_5 = 0.53\]
이 데이터를 크기순으로 정렬하면:
\[y_1 = 0.31 < y_2 = 0.53 < y_3 = 0.62 < y_4 = 0.81 < y_5 = 0.98\]
이때, 샘플 중앙값(sample median)은 \( y_3 = 0.62 \)이고, 샘플 범위(sample range)는:
\[y_5 - y_1 = 0.98 - 0.31 = 0.67\]
2) 네 번째 순서 통계량의 확률 계산
5개의 독립적인 실험에서 얻은 관측값이 \( X \sim f(x) = 2x, 0 < x < 1 \)을 따른다고 하자. 네 번째 순서 통계량 \( Y_4 \)이 \( \frac{1}{2} \)보다 작은 확률을 구하면,
\[P(Y_4 \leq 1/2) = \sum_{k=4}^{5} \binom{5}{k} \left(\frac{1}{4}\right)^k \left(\frac{3}{4}\right)^{5-k} = 0.0156\]
이와 같이 순서 통계량의 분포를 통해 특정 값 이하일 확률을 계산할 수 있다.
3. 응용
순서 통계량은 다음과 같은 다양한 통계적 분석에 활용된다.
- 샘플의 중앙값(median) 및 사분위수(quartile) 계산
- 최소-최대 값 범위(min-max range) 결정
- 특정 백분위수(percentile) 추정
- 강건한 통계(robust statistics) 기법에서 이상치(outlier)를 제거하는 데 활용
- 비모수적 검정(nonparametric test) 및 신뢰구간(confidence interval) 계산
3. 연습문제
1) 문제
(1) 문제 1
다음과 같은 8개의 데이터가 있다고 가정한다.
\[x_1 = 7.2, x_2 = 8.9, x_3 = 9.7, x_4 = 10.5, x_5 = 10.9, x_6 = 11.7, x_7 = 12.9, x_8 = 13.9\]
1) 데이터를 크기순으로 정렬하라.
2) 중앙값(median), 제1사분위수(Q1), 제3사분위수(Q3)를 구하라.
(2) 문제 2
어떤 모집단이 균등 분포 \( U(0,1) \)을 따른다고 가정한다.
1) 최소값 \( W_1 \)과 최대값 \( W_n \)의 확률 밀도 함수를 구하라.
2) \( E(W_1) = \frac{1}{n+1} \)과 \( E(W_n) = \frac{n}{n+1} \)임을 증명하라.
(3) 문제 3
어떤 모집단이 평균이 \( \theta \)인 지수 분포를 따른다고 가정한다.
1) 첫 번째 순서 통계량 \( Y_1 \)의 확률 밀도 함수를 구하라.
2) \( E[F(Y_1)] \)을 계산하라.
2) 답
(1) 문제 1
- 정렬된 데이터:
\[
7.2, 8.9, 9.7, 10.5, 10.9, 11.7, 12.9, 13.9
\]
- 중앙값(Median):
\[
\frac{10.5 + 10.9}{2} = 10.7
\]
- 제1사분위수(Q1):
\[
\frac{8.9 + 9.7}{2} = 9.3
\]
- 제3사분위수(Q3):
\[
\frac{11.7 + 12.9}{2} = 12.3
\]
(2) 문제 2
- 최소값의 확률 밀도 함수:
\[
f_{W_1}(w) = n(1-w)^{n-1}, \quad 0 \leq w \leq 1
\]
- 최대값의 확률 밀도 함수:
\[
f_{W_n}(w) = n w^{n-1}, \quad 0 \leq w \leq 1
\]
- 기대값 계산:
\[
E(W_1) = \int_0^1 w n (1-w)^{n-1} dw = \frac{1}{n+1}
\]
\[
E(W_n) = \int_0^1 w n w^{n-1} dw = \frac{n}{n+1}
\]
(3) 문제 3
- 첫 번째 순서 통계량의 확률 밀도 함수:
\[
f_{Y_1}(y) = n e^{-ny/\theta}, \quad y \geq 0
\]
- 기대값 계산:
\[
E[F(Y_1)] = \int_0^\infty (1 - e^{-y/\theta}) n e^{-ny/\theta} dy = \frac{n}{n+1}
\]
# R code
# 문제 1
data <- c(7.2, 8.9, 9.7, 10.5, 10.9, 11.7, 12.9, 13.9)
sorted_data <- sort(data)
median_value <- median(sorted_data)
q1_value <- quantile(sorted_data, 0.25)
q3_value <- quantile(sorted_data, 0.75)
print(sorted_data)
print(median_value)
print(q1_value)
print(q3_value)
# 문제 2
n <- 10
expected_min <- 1 / (n + 1)
expected_max <- n / (n + 1)
print(expected_min)
print(expected_max)
# 문제 3
theta <- 1
n <- 10
expected_F_Y1 <- n / (n + 1)
print(expected_F_Y1)
```
Python 코드 답
```python
theta = 1
n = 10
expected_F_Y1 = n / (n + 1)
print("E[F(Y1)]:", expected_F_Y1)
# Python code
# 문제 1
import numpy as np
data = np.array([7.2, 8.9, 9.7, 10.5, 10.9, 11.7, 12.9, 13.9])
sorted_data = np.sort(data)
median_value = np.median(sorted_data)
q1_value = np.percentile(sorted_data, 25)
q3_value = np.percentile(sorted_data, 75)
print("정렬된 데이터:", sorted_data)
print("중앙값:", median_value)
print("제1사분위수:", q1_value)
print("제3사분위수:", q3_value)
# 문제 2
import numpy as np
n = 10
expected_min = 1 / (n + 1)
expected_max = n / (n + 1)
print("기대 최소값:", expected_min)
print("기대 최대값:", expected_max)
# 문제 3
theta = 1
n = 10
expected_F_Y1 = n / (n + 1)
print("E[F(Y1)]:", expected_F_Y1)
'통계' 카테고리의 다른 글
| 6.5 A Simple Regression Problem (1) | 2025.01.03 |
|---|---|
| 6.4 Maximum Likelihood Estimation (0) | 2025.01.03 |
| 6.2 Point Estimation -Exploratory Data Analysis (0) | 2025.01.03 |
| 6.1 Point Estimation -Descriptive Statistics (0) | 2025.01.03 |
| 5.9 Distributions of Functionsof Random Variables -Limiting Moment-Generating Functions (2) | 2025.01.03 |