Normalizacija se koristi za uklanjanje suvišnih podataka i osigurava da se generiraju klasteri dobre kvalitete koji mogu poboljšati učinkovitost algoritama grupiranja. Tako postaje bitan korak prije grupiranja kao Euklidske udaljenosti vrlo je osjetljiv na promjene u razlikama[3].
Moramo li normalizirati podatke za grupiranje K-sredstava?
Kao i u k-NN metodi, karakteristike koje se koriste za grupiranje moraju se mjeriti u usporedivim jedinicama. U ovom slučaju jedinice nisu problem jer je svih 6 karakteristika izraženo na skali od 5 stupnjeva. Normalizacija ili standardizacija nije potrebna.
Kako pripremate podatke prije grupiranja?
Priprema podataka
Za izvođenje klaster analize u R, općenito, podatke treba pripremiti na sljedeći način: Redovi su opažanja (pojedinci), a stupci su varijable. Svaka vrijednost koja nedostaje u podacima mora se ukloniti ili procijeniti. Podaci moraju biti standardizirani (tj. skalirani) kako bi varijable bile usporedive.
Treba li podatke skalirati za grupiranje?
U grupiranju izračunavate sličnost između dva primjera kombiniranjem svih podataka o značajkama za te primjere u brojčanu vrijednost. Kombiniranje podataka o značajkama zahtijeva da podaci imaju istu ljestvicu.
Zašto je važno normalizirati značajke prije grupiranja?
Standardizacija je važan korak podatakapretprocesiranje.
Kao što je objašnjeno u ovom radu, k-means minimizira funkciju pogreške koristeći Newtonov algoritam, tj. algoritam optimizacije baziran na gradijentu. Normalizacija podataka poboljšava konvergenciju takvih algoritama.