참고 문헌:
1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)
2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.
- generalization, overfiting, underfiting
- 학습데이터가 부족한 경우 underfiting이 발생하며, 학습데이터를 과도하게 학습하면 overfiting이 발생한다.
- 두 경우 모두 새로운 데이터로 예측할 경우 정확도가 낮아지는 문제가 발생할 가능성이 매우 높다.
- Bias vs Variance

Variance가 작을수록 데이터가 밀집되어 있으며, Bias가 낮을수록 표적과 거리가 가깝다. 
- 지도학습
- 정답이 있는 데이터를 기반으로 예측 수행
cf) 비지도학습 - 정답이 없는 데이터를 사용하여 학습 진행 - 지도학습의 종류
- 분류(Classification): class(label) 를 예측. 연속성이 없음
- binary classification : 이진 분류 - 대출 승인 가/부, 유죄/무죄, 스팸메일 유/무 등
- multiclass classification : 다수 클래스 분류 - 학점(A,B,C,D,F) 분류
- 회귀(Regression): 연속성 있음
- 회사의 내년, 내후년도 매출 예측
- 나이, 교육수준, 사는 곳에 따른 사람들의 미래 수입 예측
- 분류(Classification): class(label) 를 예측. 연속성이 없음
- K- Nearest Neighbors 지도학습 알고리즘
- K- Nearest Neighbors classification
- K = 1인 경우, 가장 가까운 이웃 한 개를 찾는 알고리즘

예측(test) 데이터는 가장 가까운 학습된 데이터를 찾아 해당 클래스로 변환된다. - K = 3 인 경우, 가장 가까운 이웃 세 개를 찾아 다수 이웃의 클래스로 변환된다.

- K = 1인 경우, 가장 가까운 이웃 한 개를 찾는 알고리즘
- K- Nearest Neighbors regression
- K = 1인 경우, 가장 가까운 이웃 한 개를 찾아 그 값을 예측값으로 갖는다.

- K = 3 인 경우, 가장 가까운 이웃 3개를 찾아 평균낸 값을 예측값으로 한다.

- K = 1인 경우, 가장 가까운 이웃 한 개를 찾아 그 값을 예측값으로 갖는다.
- K- Nearest Neighbors 장단점
- 분류(classifier) : 이웃의 개수와 거리측정방식이 중요하다.
- K-NN
- 이해하기 쉽다.
- 적절한 성능을 보여준다.
- 보편적으로 속도가 빠르나, 데이터가 많은 경우 느린 경우가 있다.
- 전처리가 중요하다.
=> 이해하기 쉽지만, 예측이 느리고, 많은 기능을 처리할 수 없어 자주 사용되지 않는다.
- K- Nearest Neighbors classification
'데이터분석' 카테고리의 다른 글
| Chapter 2. 지도학습(Supervised learning): Naive Bayes classifier (1) | 2024.09.02 |
|---|---|
| Chapter 2. 지도학습(Supervised learning): SVM (0) | 2024.08.27 |
| Chapter Appendix : 최대우도법(Maximum Likelihood Estimation) (0) | 2024.08.27 |
| Chapter 2. 지도학습(Supervised learning): Linear Models (0) | 2024.08.26 |
| Chapter1. Instruction (1) | 2024.08.26 |