Preporučeno, 2024

Izbor Urednika

Razlika između klasifikacije i regresije

Klasifikacija i regresija su dva glavna problema predviđanja koji se obično obrađuju u Data miningu. Prediktivno modeliranje je tehnika razvoja modela ili funkcije pomoću povijesnih podataka za predviđanje novih podataka. Značajna razlika između klasifikacije i regresije je u tome što klasifikacija mapira objekt ulaznih podataka na neke diskretne oznake. S druge strane, regresija mapira objekt ulaznih podataka na kontinuirane stvarne vrijednosti.

Tablica usporedbe

Osnova za usporedbuKlasifikacijaRegresija
Osnovni, temeljni
Otkriće modela ili funkcija gdje se mapiranje objekata vrši u unaprijed definirane klase.Izrađen model u kojem se mapiranje objekata vrši u vrijednosti.
Uključuje predviđanjeDiskretne vrijednostiKontinuirane vrijednosti
algoritmiStablo odlučivanja, logistička regresija, itd.Regresijsko drvo (slučajna šuma), linearna regresija, itd.
Priroda predviđenih podatakaneuređenŽ
Metoda izračunaMjerna točnostMjerenje srednje kvadratne pogreške

Definicija klasifikacije

Klasifikacija je proces pronalaženja ili otkrivanja modela (funkcije) koji pomaže u razdvajanju podataka u višestruke kategorijske klase. U klasifikaciji se identificira grupno članstvo u problemu, što znači da se podaci kategoriziraju pod različitim oznakama prema nekim parametrima, a zatim se predviđaju oznake za podatke.

Izvedeni modeli mogu se prikazati u obliku pravila "IF-THEN", stabla odlučivanja ili neuronskih mreža, itd. Stablo odlučivanja je u osnovi dijagram toka koji podsjeća na strukturu stabla gdje svaki interni čvor prikazuje test na atributu, i njegove grane pokazuju ishod testa. Proces klasifikacije bavi se problemima u kojima se podaci mogu podijeliti na dvije ili više diskretnih oznaka, drugim riječima, dvije ili više nepovezanih skupova.

Uzmimo primjer, pretpostavimo da želimo predvidjeti mogućnost kiše u nekim regijama na temelju nekih parametara. Tada će postojati dvije oznake za kišu i bez kiše pod kojima se različite regije mogu klasificirati.

Definicija regresije

Regresija je proces pronalaženja modela ili funkcije za razlikovanje podataka u kontinuiranim stvarnim vrijednostima umjesto korištenja klasa. Matematički, s problemom regresije, pokušava se pronaći aproksimacija funkcije s minimalnim odstupanjem pogreške. U regresiji se predviđa da će se brojčana ovisnost podataka razlikovati.

Regresijska analiza je statistički model koji se koristi za predviđanje numeričkih podataka umjesto oznaka. Također može identificirati kretanje distribucije ovisno o dostupnim podacima ili povijesnim podacima.

Uzmimo sličan primjer u regresiji, gdje nalazimo mogućnost kiše u nekim određenim regijama uz pomoć nekih parametara. U ovom slučaju postoji vjerojatnost povezana s kišom. Ovdje ne klasificiramo regije unutar kiše i naljepnice za kišu, nego ih klasificiramo s njihovom povezanom vjerojatnošću.

Ključne razlike između klasifikacije i regresije

  1. Proces klasifikacije modelira funkciju kojom se podaci predviđaju u diskretnim oznakama klasa. S druge strane, regresija je proces stvaranja modela koji predviđa kontinuiranu količinu.
  2. Klasifikacijski algoritmi uključuju stablo odlučivanja, logističku regresiju itd. Nasuprot tome, regresijsko drvo (npr. Slučajna šuma) i linearna regresija su primjeri regresijskih algoritama.
  3. Klasifikacija predviđa neuređene podatke, dok regresija predviđa naručene podatke.
  4. Regresija se može procijeniti pomoću srednje vrijednosti kvadratne pogreške. Nasuprot tome, klasifikacija se ocjenjuje točnosti mjerenja.

Zaključak

Tehnika klasifikacije daje prediktivni model ili funkciju koja predviđa nove podatke u diskretnim kategorijama ili oznakama uz pomoć povijesnih podataka. Obrnuto, regresijska metoda modelira kontinuirane funkcije što znači da predviđa podatke u kontinuiranim numeričkim podacima.

Top