참고 문헌:
1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)
2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.
- Linear Models Regression(ordinary least squares)
- 범용적으로 사용되고 있는 모델
- 일반식 : $\hat{y} = w[0] \times x[0] + b$에서 MSE가 최소인 w 와 b를 찾는다.
- 결정계수란?
- 결정계수(決定係數, Coefficient of Determination)란 통계학에서 회귀 분석의 설명력을 나타내는 지표로, 주로 \(R^2\)로 표기됩니다. 이 지표는 독립 변수(설명 변수)가 종속 변수(반응 변수)를 얼마나 잘 설명하는지를 나타냅니다.
결정계수의 값은 0과 1 사이에 있으며, 1에 가까울수록 회귀 모델이 데이터를 잘 설명한다는 뜻입니다. 구체적으로는, 결정계수는 총 변동량 중에서 회귀 모델이 설명할 수 있는 변동량의 비율을 나타냅니다.
결정계수를 수식으로 나타내면 다음과 같습니다:
$R^2 = 1 - \frac{\text{잔차 제곱합 (RSS)}}{\text{총 제곱합 (TSS)}}$
여기서:
- 잔차 제곱합 (RSS, Residual Sum of Squares): 회귀 모델로 설명할 수 없는 오차의 제곱합이다.
- 총 제곱합 (TSS, Total Sum of Squares): 전체 데이터의 변동성을 나타내며, 종속 변수의 평균을 기준으로 한 편차의 제곱합이다.
따라서 $R^2$ 값이 클수록 모델이 종속 변수의 변동성을 더 잘 설명하는 것이고, 반대로 $R^2$ 값이 0에 가까울수록 모델이 종속 변수의 변동성을 거의 설명하지 못한다는 뜻이다.
결정계수는 회귀 분석의 성과를 평가하는 중요한 지표이지만, 독립 변수의 수가 많아질수록 결정계수가 높아지는 경향이 있으므로, 이 점을 고려하여 조정된 결정계수(Adjusted R²)도 함께 사용하는 것이 좋다. - 다중공선성
- 독립변수들간의 높은 선형관계가 존재하는지 여부를 확인할 수 있다.
- 분산 팽창 요인(VIF, Variance Inflation Factor)으로 다중공선성 여부를 확인할 수 있다. 이 값이 10보다 크다면, 다중공선성 문제가 있다고 볼 수 있다.다중공선성 문제가 발생했을 경우, 상관관계가 높은 독립변수를 일부 제거하거나, 독립변수를 변형 또는 새로운 관측치를 이용하는 방법, 주성분분석을 이용하여 공선성을 제거하는 방법을 활용해 볼 수 있다. - regression 성능 향상 방법
- 변수선택법
- 변수가 여러 개일 때, 최적의 변수 조합을 찾아내는 기법
- 전진선택법(Forward selection) : 변수를 하나씩 추가하면서 진행
- 후진소거법(Backward elimination) : 변수를 하나씩 빼면서 진행
- 단계적선택법(Step wise) : 위 두가지를 조합해서 사용. 단계마다 변수를 넣거나 뺀다.
- 회귀 계수 축소법
- SSE를 최소화하는 방법이다.
- minimize SSE 수식
$\text{minimize } SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 + f(\boldsymbol{\beta})$ - Ridge, Lasso, Elastic-Net이 있다.
- Ridge(L1 규제)
- $f(\beta)$에 $\lambda \sum_{j=1}^{p} |\beta_j|$를 대입(회귀계수 절대값의 합)- $\lambda$가 클수록 많은 회귀계수를으로 수렴하게 만든다.
alpha값이 커질수록 계수값이 0에 수렴한다. coefficient index는 독립변수의 index를 의미한다. 
Ridge는 linear regression에 비해 훈련수가 적어도 어느 정도 성능을 보장한다. - Lasso(L2 규제)
- $f(\beta) = \lambda \sum_{j=1}^{p} \beta_j^2$를 대입(회귀계수 제곱의 합)
- $\lambda$가 클수록 많은 회귀계수를 0으로 수렴하게 만든다. - Elastic-Net
- $f(\beta) = \lambda \left(\frac{1-\alpha}{2} \sum_{j=1}^{p} \beta_j^2 + \frac{\alpha}{2} \sum_{j=1}^{p} |\beta_j|\right)$를 대입(L1 규제와 L2 규제 사용)
- \(\lambda\)는 전체 규제의 강도를 조절하는 매개변수다. \(\alpha\)는 L1(라쏘)과 L2(릿지) 페널티 사이의 균형을 조절함.
- \(\alpha = 1\)이면 Elastic-Net은 라쏘 회귀와 동일해진다.
- \(\alpha = 0\)이면 Elastic-Net은 릿지 회귀와 동일해진다.
- Elastic-Net은 라쏘 회귀의 변수 선택 능력과 릿지 회귀의 계수 수축을 결합하여, 특히 다중공선성 문제나 변수의 수가 관측치보다 많을 때 유용하게 사용된다.
- 변수선택법
- 선형회귀 기본 가정
- 선형성 : 독립변수와 종속변수는 선형관계여야 한다.
- 독립성 : 여러 변수들 사이엔 상관관계가 없이 독립이어야 한다.(다중공선성이 없어야 한다.)
- 등분산성 : 잔차의 분산은 입력변수와 무관하게 일정해야 한다.(분산은 상수다)
- 정규성 : 잔차의 분포는 정규분포를 따른다.
- Linear Models Classification
- 범용적으로 사용되는 모델
- 모델: logistic regression, linear support vector machines(linear SVMs)
- 로지스틱 판별함수: $\hat{y} = \sigma(w[0] \cdot x[0] + w[1] \cdot x[1] + \ldots + b)$, 는 시그모이드 함수
- 예측값 $\hat{y}$ 는 0과 1 사이의 값으로 출력된다. 이 값이 0.5보다 크면 보통 클래스 1로, 작으면 클래스 0으로 분류한다. 따라서, 식 $\hat{y}$ 는 모델이 양의 클래스(1)를 예측하는 경우를 나타낸다. - 시그모이드 함수의 정의 : $\sigma(z) = \frac{1}{1 + e^{-z}}$
- 로지스틱 회귀 모델의 수식 : $\hat{y} = \frac{1}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}$

Hours studying에 대한 Probability of passing exam의 확률 - Odds: 어떤 사건이 발생할 확률과 발생하지 않을 확률의 비율을 나타내는 값
- 만약 p=0.5라면, 사건이 발생할 확률과 발생하지 않을 확률이 동일하므로, 이 된다. 이는 사건이 발생할 확률이 50%인 경우를 나타낸다.
- 만약 라면, 이 된다. 이는 사건이 발생할 확률이 발생하지 않을 확률보다 높음을 의미한다.
- 반대로 라면, 이 된다. 이는 사건이 발생하지 않을 확률이 발생할 확률보다 높음을 의미한다.
$\text{Odds} = \frac{p}{1-p}$
$\text{Log Odds} = \log\left(\frac{p}{1-p}\right)$
$\text{odds} = e^{\beta_0 + \beta_1 x}$
$\text{We can now define the logit (log odds) function as the inverse } g = \sigma^{-1} \text{ of the standard logistic function. It is easy to see that it satisfies:}$
$g(p(x)) = \sigma^{-1}(p(x)) = logit(p(x)) = \ln\left(\frac{p(x)}{1-p(x)}\right) = \beta_0 + \beta_1 x,$
$\text{and equivalently, after exponentiating both sides we have the odds:}$
$\frac{p(x)}{1-p(x)} = e^{\beta_0 + \beta_1 x}.$
- Odd ratio : 두 사건의 Odds를 비교하는 통계적인 측정 방법이다. Odds Ratio는 한 사건의 발생 확률이 다른 사건에 비해 얼마나 큰지 또는 작은지를 보여주며, 이는 주로 의학 연구와 같은 분야에서 두 집단 간의 효과를 비교하는 데 사용된다.
- 수식 : $\text{Odds Ratio} = \frac{\frac{p_A}{1 - p_A}}{\frac{p_B}{1 - p_B}}$
- : 사건 A와 사건 B의 발생 확률이 동일함을 의미한다.
- : 사건 A의 발생 확률이 사건 B의 발생 확률보다 큼을 의미.
- : 사건 A의 발생 확률이 사건 B의 발생 확률보다 작음을 의미.
'데이터분석' 카테고리의 다른 글
| Chapter 2. 지도학습(Supervised learning): Naive Bayes classifier (1) | 2024.09.02 |
|---|---|
| Chapter 2. 지도학습(Supervised learning): SVM (0) | 2024.08.27 |
| Chapter Appendix : 최대우도법(Maximum Likelihood Estimation) (0) | 2024.08.27 |
| Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors (0) | 2024.08.26 |
| Chapter1. Instruction (1) | 2024.08.26 |