통계

9.5 General Factorial and 2k Factorial Designs

VirtualJin 2025. 1. 3. 13:05

 

 

* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다

 
1. 이론정리
 1) 일반 요인설계 (General Factorial Design)  
 (1) 개요  
- 요인설계(Factorial Design)는 여러 개의 요인이 실험 결과에 미치는 영향을 동시에 분석하는 기법이다.  
- 두 개 이상의 요인이 포함된 경우, 요인 간의 상호작용(Interaction) 을 고려해야 한다.  
- 요인설계는 다양한 분야에서 사용되며, 특히 산업 실험, 생명과학, 경영학에서 중요한 역할을 한다.  

 (2) 실험 설계  
- 일반적으로 \(k\) 개의 요인이 각각 \(n_1, n_2, \dots, n_k\) 개의 수준(Level)을 가지면, 총 실험 조합의 수는 다음과 같다.  

\[
N = n_1 \times n_2 \times \dots \times n_k
\]

- 예를 들어, 3개의 요인(A, B, C)이 각각 2개의 수준을 가지면 실험 조합 수는  

\[
N = 2 \times 2 \times 2 = 8
\]

- 각 요인의 수준(Level)이 많을수록 실험의 복잡성이 증가한다.  
- 실험 비용과 시간을 절감하기 위해 부분 요인설계 (Fractional Factorial Design) 를 고려할 수 있다.  

 (3) 분산분석 (ANOVA) 활용  
- 요인설계의 분석에는 분산분석 (ANOVA, Analysis of Variance) 가 필수적으로 사용된다.  
- 실험 결과를 통해 다음과 같은 효과를 평가한다.  
  - 주 효과 (Main Effect): 개별 요인의 영향을 측정  
  - 2차 상호작용 (Two-Factor Interaction, \( AB \)): 두 요인의 조합이 실험 결과에 미치는 영향  
  - 3차 상호작용 (Three-Factor Interaction, \( ABC \)): 세 요인이 결합하여 영향을 미치는 효과  




 
 2) \( 2^k \) 요인설계 (\( 2^k \) Factorial Design)  
 (1) 정의  
- \( k \) 개의 요인이 각각 두 개의 수준(낮음, 높음)에서 실험되는 요인설계이다.  
- 일반적으로 수준은 -1 (낮음), +1 (높음) 으로 코딩하여 분석을 수행한다.  

 (2) 실험 설계 방법  
- 표준 순서(Standard Order) 를 사용하여 실험을 구성한다.  
- 요인의 개수 \( k \) 가 증가하면 실험의 수는 다음과 같이 기하급수적으로 증가한다.  

\[
N = 2^k
\]

- 예를 들어, \( 2^3 \) 설계에서는 \( 2^3 = 8 \) 개의 실험이 필요하며, 요인의 조합은 다음과 같이 결정된다.  

Run A B C Observation1
1 -1 -1 -1 \( Y_1 \)
2 +1 -1 -1 \( Y_2 \)
3 -1 +1 -1 \( Y_3 \)
4 +1 +1 -1 \( Y_4 \)
5 -1 -1 +1 \( Y_5 \)
6 +1 -1 +1 \( Y_6 \)
7 -1 +1 +1 \( Y_7 \)
8 +1 +1 +1 \( Y_8 \)



 (3) 상호작용 (Interaction) 분석  
- 요인 간의 상호작용은 해당 요인의 수준 값을 곱한 값으로 계산한다.  
- 예를 들어, AB 상호작용 효과는 다음과 같이 정의된다.  

\[
AB = A \times B
\]

- 3차 상호작용 ABC의 경우  

\[
ABC = A \times B \times C
\]

 (4) 분산분해 (Sum of Squares Decomposition)  
- 총 제곱합(Total Sum of Squares, SS)은 개별 요인 효과와 상호작용 효과로 분해될 수 있다.  
- 예를 들어, \( 2^3 \) 설계에서는 다음과 같은 분해가 이루어진다.  

\[
\sum (Y_i - \bar{Y})^2 = 8(A^2 + B^2 + C^2 + AB^2 + AC^2 + BC^2 + ABC^2)
\]

- 이는 각 효과가 서로 독립적으로 분산을 기여함을 의미한다.  



2. 예제  
 1) 문제  
 (1) 다음과 같은 \( 2^2 \) 요인설계에서 A, B, AB 효과를 구하시오.  

Run A B Observation1
1 -1 -1 10
2 +1 -1 14
3 -1 +1 18
4 +1 +1 22


 (2) \( 2^3 \) 요인설계에서 A, B, C, AB, AC, BC, ABC 효과를 구하시오.  

 2) 답안   
 (1) \( 2^2 \) 설계의 A, B, AB 효과 계산  

\[
[A] = \frac{-Y_1 + Y_2 - Y_3 + Y_4}{4} = \frac{-10 + 14 - 18 + 22}{4} = 2
\]

\[
[B] = \frac{-Y_1 - Y_2 + Y_3 + Y_4}{4} = \frac{-10 - 14 + 18 + 22}{4} = 4
\]

\[
[AB] = \frac{Y_1 - Y_2 - Y_3 + Y_4}{4} = \frac{10 - 14 - 18 + 22}{4} = 0
\]

# R code
# 데이터 생성
df <- data.frame(
  A = c(-1, 1, -1, 1),
  B = c(-1, -1, 1, 1),
  Y = c(10, 14, 18, 22)
)

# 회귀 모델 생성
model <- lm(Y ~ A * B, data = df)

# 결과 출력
summary(model)

<-결과 출력->
# Estimate Std.값이 각 요인별 상호작용 효과
Call:
lm(formula = Y ~ A * B, data = df)

Residuals:
ALL 4 residuals are 0: no residual degrees of freedom!

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       16        NaN     NaN      NaN
A                  2        NaN     NaN      NaN
B                  4        NaN     NaN      NaN
A:B                0        NaN     NaN      NaN

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1,	Adjusted R-squared:    NaN 
F-statistic:   NaN on 3 and 0 DF,  p-value: NA


[Execution complete with exit code 0]
# Python code
import statsmodels.api as sm
import pandas as pd

# 데이터 생성
df = pd.DataFrame({
    'A': [-1, 1, -1, 1],
    'B': [-1, -1, 1, 1],
    'Y': [10, 14, 18, 22]
})

# 상호작용 항 추가
df['AB'] = df['A'] * df['B']

# 회귀 모델 생성
X = sm.add_constant(df[['A', 'B', 'AB']])  # 절편 포함
y = df['Y']
model = sm.OLS(y, X).fit()

# 결과 출력
print(model.summary())

<-결과 출력->
# coef 값이 각 요인별 상호작용 효과
                            OLS Regression Results
==============================================================================
Dep. Variable:                      Y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                    nan
Method:                 Least Squares   F-statistic:                       nan
Date:                Sat, 01 Mar 2025   Prob (F-statistic):                nan
Time:                        20:42:03   Log-Likelihood:                    inf
No. Observations:                   4   AIC:                              -inf
Df Residuals:                       0   BIC:                              -inf
Df Model:                           3
Covariance Type:            nonrobust
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         16.0000        nan        nan        nan         nan         nan
A              2.0000        nan        nan        nan         nan         nan
B              4.0000        nan        nan        nan         nan         nan
AB         -8.882e-16        nan        nan        nan         nan         nan
==============================================================================
Omnibus:                          nan   Durbin-Watson:                     nan
Prob(Omnibus):                    nan   Jarque-Bera (JB):                  nan
Skew:                             nan   Prob(JB):                          nan
Kurtosis:                         nan   Cond. No.                         1.00
==============================================================================

 


  -