Trebamo li normalizirati podatke prije grupiranja?

Sadržaj:

Trebamo li normalizirati podatke prije grupiranja?
Trebamo li normalizirati podatke prije grupiranja?
Anonim

Normalizacija se koristi za uklanjanje suvišnih podataka i osigurava da se generiraju klasteri dobre kvalitete koji mogu poboljšati učinkovitost algoritama grupiranja. Tako postaje bitan korak prije grupiranja kao Euklidske udaljenosti vrlo je osjetljiv na promjene u razlikama[3].

Moramo li normalizirati podatke za grupiranje K-sredstava?

Kao i u k-NN metodi, karakteristike koje se koriste za grupiranje moraju se mjeriti u usporedivim jedinicama. U ovom slučaju jedinice nisu problem jer je svih 6 karakteristika izraženo na skali od 5 stupnjeva. Normalizacija ili standardizacija nije potrebna.

Kako pripremate podatke prije grupiranja?

Priprema podataka

Za izvođenje klaster analize u R, općenito, podatke treba pripremiti na sljedeći način: Redovi su opažanja (pojedinci), a stupci su varijable. Svaka vrijednost koja nedostaje u podacima mora se ukloniti ili procijeniti. Podaci moraju biti standardizirani (tj. skalirani) kako bi varijable bile usporedive.

Treba li podatke skalirati za grupiranje?

U grupiranju izračunavate sličnost između dva primjera kombiniranjem svih podataka o značajkama za te primjere u brojčanu vrijednost. Kombiniranje podataka o značajkama zahtijeva da podaci imaju istu ljestvicu.

Zašto je važno normalizirati značajke prije grupiranja?

Standardizacija je važan korak podatakapretprocesiranje.

Kao što je objašnjeno u ovom radu, k-means minimizira funkciju pogreške koristeći Newtonov algoritam, tj. algoritam optimizacije baziran na gradijentu. Normalizacija podataka poboljšava konvergenciju takvih algoritama.

Preporučeni: