Chapter 2. 지도학습(Supervised learning): 부스팅(Boosting)
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. 부스팅(Boosting)은 여러 약한 학습자(weak learner)를 순차적으로 결합하여 강력한 학습 모델을 만드는 앙상블 기법이다. 각 학습자는 이전 모델이 잘못 예측한 데이터를 보완하도록 학습되며, 점진적으로 성능을 향상시킨다. 대표적인 부스팅 알고리즘에는 AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoo..
Chapter 2. 지도학습(Supervised learning): 랜덤포레스트(Random Forest)
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. 랜덤 포레스트(Random Forest)는 여러 개의 결정 트리(Decision Tree)를 모아서 더 좋은 모델을 만드는 앙상블 기법이다. 결정 트리 하나만으로는 과적합(overfitting) 문제가 생기기 쉬운데, 랜덤 포레스트는 그 문제를 해결할 수 있다. 여러 트리를 사용해서 데이터를 학습하고 예측함으로써, 과적합을 방지하면서 성능을 높일 수 있는 방..
Chapter 2. 지도학습(Supervised learning): Naive Bayes classifier
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. Naive Bayes classifier 는 선형 모델(linear model)과 매우 비슷한 성격의 분류기이며, 로지스틱 회귀분석과 linear SVC보다 학습이 빠르다는 장점을 갖고 있지만, 빠른 만큼 일반화 성능은 떨어진다. Naive Bayes classifier가 학습이 빠른 이유는 각각의 파라미터를 개별적으로 학습하고, 각각의 특성(featu..
Chapter 2. 지도학습(Supervised learning): SVM
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. SVM(Support Vector Machine)은 분류와 회귀 문제를 해결하는 지도 학습 알고리즘이다. 주로 이진 분류 문제에서 효과적이며, 고차원 공간에서 데이터를 선형적으로 분리하는 초평면을 사용한다. 데이터가 복잡하거나 선형적으로 분리되지 않을 경우 커널 트릭을 통해 고차원 공간으로 사상하여 초평면으로 분류가 가능하게 한다. 이를 통해 SVM은 다양한..
Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors
·
데이터분석
참고 문헌:1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. generalization, overfiting, underfiting- 학습데이터가 부족한 경우 underfiting이 발생하며, 학습데이터를 과도하게 학습하면 overfiting이 발생한다.- 두 경우 모두 새로운 데이터로 예측할 경우 정확도가 낮아지는 문제가 발생할 가능성이 매우 높다.Bias vs Variance지도학습- 정답이 있는 데이터를 기반으..
Chapter1. Instruction
·
데이터분석
참고 문헌: 1. 서강대 AI MBA 데이터마이닝 강의교재 (2023) 2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415. 1. 머신러닝이란: 데이터 마이닝이나 기타 학습 알고리즘을 사용하여, 지식을 추출하고, 이를 경험기반으로 삼아 비슷한 상황의 미래 사건의 결과를 예측하는 분야 2. 머신러닝 모델을 만들기 전에 유념해야 할 사항들어떤 질문에 대답하려고 합니까? 수집된 데이터가 그 질문에 답할 수 있다고 생각하나요?머신 러닝 문제로 내 질문을 표현하는 가장 좋은 방법은 무엇..
VirtualJin
'머신러닝' 태그의 글 목록