* 스케일링이 모델에 영향을 주는가?
- 트리모델의 경우 변수 하나를 기준으로 분기점을 잡으므로 스케일의 영향을 받지 않는다.
- 하지만 기울기를 업데이트 하는 식으로 작동하는 알고리즘의 경우 영향을 크게 받는다.
(Linear, Logistic, neural network, KNN, K-means, SVM 등)
정규화(Normalization)
- 데이터가 정규분포(가우시안 분포)를 따르지 않을 때
- 분포에 대한 가정이 필요없는 알고리즘을 사용할 때 (KNN, Neural Network 등)
표준화(Standardization)
- 데이터가 정규분포(가우시안 분포)를 따를 때 유용하다
- 하지만 정규분포를 따르는 것이 필수적이지는 않음.
- 정규화와 달리 표준화는 경계범위를 가지지 않기 때문에 이상치(outlier)의 영향을 덜 받는다.
- (정규화는 이상치의 영향을 크게 받음)
하지만 정규화와 표준화의 선택은 사용할 머신러닝 알고리즘과 해결하고자 하는 문제에 의존하므로 정해진 답은 없다.
결국 모델을 수립할 때
(1) 원본(raw)데이터와
(2)정규화된 데이터
(3)표준화된 데이터를
모두 사용해본 후 성능을 비교하는 방법이 가장 좋다.
Reference
[1] www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalization-standardization/
'이것저것' 카테고리의 다른 글
라이다 vs 레이더 (0) | 2021.04.23 |
---|---|
코딩테스트 문제유형 빠르게 파악하기 (0) | 2021.04.21 |