Eat Study Love

먹고 공부하고 사랑하라

Data Science/ML & DL

9. Support Vector Machines

eatplaylove 2024. 4. 15. 20:50

https://eglife.tistory.com/56

 

8. Ensemble Methods and Boosting

https://eglife.tistory.com/55 7. Decision Trees https://eglife.tistory.com/54 6. Overfitting & Regularization https://eglife.tistory.com/48 5. Classification 2 (Bayes Classifiers) https://eglife.tistory.com/47 4. Classification 1 (Logistic Regression) http

eglife.tistory.com

 

 

엄청 중요한 Support  Vector Machines(SVM)을 다뤄보자.

 

서포트 백터 머신은 수학적으로 굉장히 복잡한 구조를 갖는다. 이거 하나 하나 증명하려고 하면 한숨만 나오고 솔직히 이해가 잘 되지도 않는다.

 

수학과 아니고, 그냥 머신러닝을 즐기는 자라면 아~ 대충 이렇구나 정도로 원리 이해에 초점을 맞춰야겠다.

 

기하학 느낌이 물씬 나는 SVM
거의 뭐 기하와 벡터급, Primal Problem 뭐냐;;

 

라그랑주 어서 오고 --> Dual Problem으로 바뀐다. 람다/베타 ㅅ람다등장!(= Support Vector)
람다 0 -> 잘 분류 되어 있구나,, 람다 0보다 크다? Data가 Margin 위 or Margin negative방향 어딘가에 있다.. 조정 필요
Nonlinear하게 갈라야 하는 경우 Slack Variable( 프사이? 싸이? ) 사용--> 0이면 굿, 0~1이면 boundary 안 쪽, 1보다 크면 boundary 넘음

 

- Slack Variable 프사이 --> 각 data point의 missclassification된 정도를 나타내 주는 변수(각 data의 violation 즉, Boundary에서 얼마나 떨어져 있는지를 나타내준다. 기준은 위 그림 캡션과 같다.

C와 관련된 정정사항. Large C? classify가 중요 Margin 줄여도 됨. Small C? 그 반대. Margin 키우는 게 최우선!

 

- 이건 좀 헷갈리는데, toleranace for observations being on the wrong side of the margin..이건 최종적인 margin 크기에 비례한다고 생각하자 걍... 결국 Margin 커진다? tolerance도 큰 걸로..

발퀄.. Margin Based Loss Log loss -> 로지스틱회귀 / exponential-> 에이다부스
SVM - Hinge loss, non separable(linearly) data -> Kernel
a < C는 완전 국경 넘어버린 CASE
SVM은 어지간하면 2 classes 분류까지만

 

SVM vs 로지스틱 회귀, 서로 언제 쓰면 좋을 지

'Data Science > ML & DL' 카테고리의 다른 글

10. Unsupervised Learning ( ML last part )  (0) 2024.04.15
8. Ensemble Methods and Boosting  (0) 2024.04.15
7. Decision Trees  (0) 2024.04.15
6. Overfitting & Regularization  (0) 2024.04.15
5. Classification 2 (Bayes Classifiers)  (0) 2024.04.09