데이터분석

Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors

VirtualJin 2024. 8. 26. 22:32

참고 문헌:
1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)
2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.

 

 

  • generalization, overfiting, underfiting
    - 학습데이터가 부족한 경우 underfiting이 발생하며, 학습데이터를 과도하게 학습하면 overfiting이 발생한다.
    - 두 경우 모두 새로운 데이터로 예측할 경우 정확도가 낮아지는 문제가 발생할 가능성이 매우 높다.
  • Bias vs Variance
    Variance가 작을수록 데이터가 밀집되어 있으며, Bias가 낮을수록 표적과 거리가 가깝다.

  • 지도학습
    - 정답이 있는 데이터를 기반으로 예측 수행
    cf) 비지도학습 - 정답이 없는 데이터를 사용하여 학습 진행

  • 지도학습의 종류
    1. 분류(Classification): class(label) 를 예측. 연속성이 없음
      • binary classification : 이진 분류 - 대출 승인 가/부, 유죄/무죄, 스팸메일 유/무 등
      • multiclass classification : 다수 클래스 분류 - 학점(A,B,C,D,F) 분류
    2. 회귀(Regression): 연속성 있음
      • 회사의 내년, 내후년도 매출 예측
      • 나이, 교육수준, 사는 곳에 따른 사람들의 미래 수입 예측
  • K- Nearest Neighbors 지도학습 알고리즘
    1. K- Nearest Neighbors classification
      • K = 1인 경우, 가장 가까운 이웃 한 개를 찾는 알고리즘
        예측(test) 데이터는 가장 가까운 학습된 데이터를 찾아 해당 클래스로 변환된다.
      • K = 3 인 경우, 가장 가까운 이웃 세 개를 찾아 다수 이웃의 클래스로 변환된다.
    2. K- Nearest Neighbors regression
      • K = 1인 경우, 가장 가까운 이웃 한 개를 찾아 그 값을 예측값으로 갖는다.
      •  K = 3 인 경우, 가장 가까운 이웃 3개를 찾아 평균낸 값을 예측값으로 한다.
    3. K- Nearest Neighbors 장단점
      • 분류(classifier) : 이웃의 개수와 거리측정방식이 중요하다.
      • K-NN
        - 이해하기 쉽다.
        - 적절한 성능을 보여준다.
        - 보편적으로 속도가 빠르나, 데이터가 많은 경우 느린 경우가 있다.
        - 전처리가 중요하다.
        => 이해하기 쉽지만, 예측이 느리고, 많은 기능을 처리할 수 없어 자주 사용되지 않는다.