Normalizacija je korisna kada vaši podaci imaju različite razmjere i algoritam koji koristite ne daje pretpostavke o distribuciji vaših podataka, kao što su k-najbliži susjedi i umjetni neuralni mreže. Standardizacija pretpostavlja da vaši podaci imaju Gaussovu (zvonastu krivulju) distribuciju.
Kada bismo trebali normalizirati podatke?
Podatke treba normalizirati ili standardizirati kako bi se sve varijable uskladile jedna s drugom. Na primjer, ako je jedna varijabla 100 puta veća od druge (u prosjeku), tada bi se vaš model mogao bolje ponašati ako normalizirate/standardizirate dvije varijable da budu približno jednake.
Koja je razlika između normalizacije i standardizacije?
Normalizacija obično znači ponovno skaliranje vrijednosti u raspon od [0, 1]. Standardizacija obično znači ponovno skaliranje podataka kako bi imali srednju vrijednost od 0 i standardnu devijaciju od 1 (varijance jedinice).
Kada i zašto nam je potrebna normalizacija podataka?
Jednostavnije rečeno, normalizacija osigurava da svi vaši podaci izgledaju i čitaju na isti način u svim zapisima. Normalizacija će standardizirati polja uključujući nazive tvrtki, imena kontakata, URL-ove, podatke o adresi (ulice, države i gradovi), telefonske brojeve i nazive poslova.
Kako birate normalizaciju i standardizaciju?
U poslovnom svijetu, "normalizacija" obično znači da je raspon vrijednosti"normalizirano da bude od 0,0 do 1,0". "Standardizacija" obično znači da je raspon vrijednosti "standardiziran" kako bi se izmjerilo koliko je standardnih odstupanja vrijednost od svoje srednje vrijednosti.