Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors

데이터분석

Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors

VirtualJin 2024. 8. 26. 22:32

참고 문헌:
1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)
2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.

generalization, overfiting, underfiting
- 학습데이터가 부족한 경우 underfiting이 발생하며, 학습데이터를 과도하게 학습하면 overfiting이 발생한다.
- 두 경우 모두 새로운 데이터로 예측할 경우 정확도가 낮아지는 문제가 발생할 가능성이 매우 높다.
Bias vs Variance
Variance가 작을수록 데이터가 밀집되어 있으며, Bias가 낮을수록 표적과 거리가 가깝다.
지도학습
- 정답이 있는 데이터를 기반으로 예측 수행
cf) 비지도학습 - 정답이 없는 데이터를 사용하여 학습 진행
지도학습의 종류
1. 분류(Classification): class(label) 를 예측. 연속성이 없음
  - binary classification : 이진 분류 - 대출 승인 가/부, 유죄/무죄, 스팸메일 유/무 등
  - multiclass classification : 다수 클래스 분류 - 학점(A,B,C,D,F) 분류
2. 회귀(Regression): 연속성 있음
  - 회사의 내년, 내후년도 매출 예측
  - 나이, 교육수준, 사는 곳에 따른 사람들의 미래 수입 예측
K- Nearest Neighbors 지도학습 알고리즘
1. K- Nearest Neighbors classification
  - K = 1인 경우, 가장 가까운 이웃 한 개를 찾는 알고리즘
    예측(test) 데이터는 가장 가까운 학습된 데이터를 찾아 해당 클래스로 변환된다.
  - K = 3 인 경우, 가장 가까운 이웃 세 개를 찾아 다수 이웃의 클래스로 변환된다.
2. K- Nearest Neighbors regression
  - K = 1인 경우, 가장 가까운 이웃 한 개를 찾아 그 값을 예측값으로 갖는다.
  - K = 3 인 경우, 가장 가까운 이웃 3개를 찾아 평균낸 값을 예측값으로 한다.
3. K- Nearest Neighbors 장단점
  - 분류(classifier) : 이웃의 개수와 거리측정방식이 중요하다.
  - K-NN
    - 이해하기 쉽다.
    - 적절한 성능을 보여준다.
    - 보편적으로 속도가 빠르나, 데이터가 많은 경우 느린 경우가 있다.
    - 전처리가 중요하다.
    => 이해하기 쉽지만, 예측이 느리고, 많은 기능을 처리할 수 없어 자주 사용되지 않는다.

저작자표시 비영리 변경금지 (새창열림)