데이터분석

Chapter1. Instruction

VirtualJin 2024. 8. 26. 22:31

참고 문헌:
1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)
2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.

 

1. 머신러닝이란

: 데이터 마이닝이나 기타 학습 알고리즘을 사용하여, 지식을 추출하고, 이를 경험기반으로 삼아 비슷한 상황의 미래 사건의 결과를 예측하는 분야

 

2. 머신러닝 모델을 만들기 전에 유념해야 할 사항들

  • 어떤 질문에 대답하려고 합니까? 수집된 데이터가 그 질문에 답할 수 있다고 생각하나요?
  • 머신 러닝 문제로 내 질문을 표현하는 가장 좋은 방법은 무엇입니까?
  • 내가 해결하고자 하는 문제를 나타내기에 충분한 데이터를 수집했는가?
  • 추출한 데이터의 특징은 무엇이며 올바른 예측이 가능합니까?
  • 어플리케이션의 성공 여부를 어떻게 측정할 것인가?
  • 머신 러닝 솔루션은 연구 또는 비즈니스 제품의 다른 부분과 어떻게 상호 작용합니까?

3. 머신러닝 모델 구축에 사용되는 언어

  • PYTHON
    - 데이터 사이언티스트에게 유용한 다양한 기능들을 제공하며, Jupyter notebook 등을 사용하여, 결과를 빠르게 확인 가능
    - 머신러닝 모델부터 인공지능 모델까지 다양한 패키지 제공
  • R

4. 머신러닝 알고리즘 유형

  • 지도학습(Supervised learning)
    - 정답이 있는 데이터를 기반으로 예측을 수행
    - 분류, 회귀, 예측
  • 비지도학습(Unsupervised learning)
    - 정답이 없는 데이터를 사용하여 학습 진행
    - 클러스터링

5. 머신러닝 모델 구축 순서

  • 데이터 확인
    - 독립변수, 종속변수, 데이터 수, 결측치 등을 확인
  • 데이터 분리
    - 데이터를 학습(train)데이터와 평가(Validation)데이터로 분리
  • 데이터 시각화
    - 데이터를 시각화하여, 독립변수와 종속변수의 관계를 확인해 볼 수 있다.
  • 머신러닝 모델 구축
  • 예측
    - 평가(Validation) 데이터로 결과 예측
  • 평가
    - 평가(Validation) 데이터로 예측한 결과가 실제 결과를 비교