Chapter 2. 지도학습(Supervised learning): 부스팅(Boosting)
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. 부스팅(Boosting)은 여러 약한 학습자(weak learner)를 순차적으로 결합하여 강력한 학습 모델을 만드는 앙상블 기법이다. 각 학습자는 이전 모델이 잘못 예측한 데이터를 보완하도록 학습되며, 점진적으로 성능을 향상시킨다. 대표적인 부스팅 알고리즘에는 AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoo..
Chapter 2. 지도학습(Supervised learning): 랜덤포레스트(Random Forest)
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. 랜덤 포레스트(Random Forest)는 여러 개의 결정 트리(Decision Tree)를 모아서 더 좋은 모델을 만드는 앙상블 기법이다. 결정 트리 하나만으로는 과적합(overfitting) 문제가 생기기 쉬운데, 랜덤 포레스트는 그 문제를 해결할 수 있다. 여러 트리를 사용해서 데이터를 학습하고 예측함으로써, 과적합을 방지하면서 성능을 높일 수 있는 방..
Chapter 2. 지도학습(Supervised learning): 의사결정나무(Decision Trees)
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. 의사결정나무는 분류/회귀에서 널리 사용되는 모델이다. 특히, 계층적으로 만약/그렇지 않으면의 질문을 학습하며 의사결정을 이끈다. 다음은 의사결정나무를 잘 보여주는 그림이다. 어릴 적 주로 했던 스무고개 퀴즈를 생각하면 쉽게 이해할 수 있을 것이다.의사결정나무 모델 구축의사결정나무 학습은 올바른 답에 가장 빨리 도달할 수 있는 일련의 if/else 질문들을 학..
Chapter 2. 지도학습(Supervised learning): Naive Bayes classifier
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. Naive Bayes classifier 는 선형 모델(linear model)과 매우 비슷한 성격의 분류기이며, 로지스틱 회귀분석과 linear SVC보다 학습이 빠르다는 장점을 갖고 있지만, 빠른 만큼 일반화 성능은 떨어진다. Naive Bayes classifier가 학습이 빠른 이유는 각각의 파라미터를 개별적으로 학습하고, 각각의 특성(featu..
Chapter 2. 지도학습(Supervised learning): SVM
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. SVM(Support Vector Machine)은 분류와 회귀 문제를 해결하는 지도 학습 알고리즘이다. 주로 이진 분류 문제에서 효과적이며, 고차원 공간에서 데이터를 선형적으로 분리하는 초평면을 사용한다. 데이터가 복잡하거나 선형적으로 분리되지 않을 경우 커널 트릭을 통해 고차원 공간으로 사상하여 초평면으로 분류가 가능하게 한다. 이를 통해 SVM은 다양한..
Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. generalization, overfiting, underfiting- 학습데이터가 부족한 경우 underfiting이 발생하며, 학습데이터를 과도하게 학습하면 overfiting이 발생한다.- 두 경우 모두 새로운 데이터로 예측할 경우 정확도가 낮아지는 문제가 발생할 가능성이 매우 높다.Bias vs Variance지도학습- 정답이 있는 데이터를 기반으..
VirtualJin
'지도학습' 태그의 글 목록