본문 바로가기

이것저것

정규화(Normalization) vs 표준화(Standardization)

* 스케일링이 모델에 영향을 주는가?

 - 트리모델의 경우 변수 하나를 기준으로 분기점을 잡으므로 스케일의 영향을 받지 않는다.

 - 하지만 기울기를 업데이트 하는 식으로 작동하는 알고리즘의 경우 영향을 크게 받는다.

  (Linear, Logistic, neural network, KNN, K-means, SVM 등)

 

정규화(Normalization)

 - 데이터가 정규분포(가우시안 분포)를 따르지 않을 때

 - 분포에 대한 가정이 필요없는 알고리즘을 사용할 때 (KNN, Neural Network 등)

 

표준화(Standardization)

 - 데이터가 정규분포(가우시안 분포)를 따를 때 유용하다

 - 하지만 정규분포를 따르는 것이 필수적이지는 않음.

 - 정규화와 달리 표준화는 경계범위를 가지지 않기 때문에 이상치(outlier)의 영향을 덜 받는다.

 - (정규화는 이상치의 영향을 크게 받음)

 

하지만 정규화와 표준화의 선택은 사용할 머신러닝 알고리즘과 해결하고자 하는 문제에 의존하므로 정해진 답은 없다.

 

결국 모델을 수립할 때

(1) 원본(raw)데이터와

(2)정규화된 데이터

(3)표준화된 데이터를

모두 사용해본 후 성능을 비교하는 방법이 가장 좋다.

 

 

 

Reference

 

[1] www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalization-standardization/

'이것저것' 카테고리의 다른 글

라이다 vs 레이더  (0) 2021.04.23
코딩테스트 문제유형 빠르게 파악하기  (0) 2021.04.21