From Wikipedia, the free encyclopedia
U statistici, klasifikacija je problem identifikovanja kojoj od skupa kategorija (podpopulacija) posmatranje (ili zapažanja) pripada. Primeri su dodeljivanje date e-pošte u klasu „neželjena pošta” ili „ne-spam”, i dodeljivanje dijagnoze datom pacijentu na osnovu uočenih karakteristika pacijenta (pol, krvni pritisak, prisustvo ili odsustvo određenih simptoma, itd).
Često se pojedinačna zapažanja analiziraju u skup kvantitativnih svojstava, poznatih na različite načine kao objašnjavajuće varijable ili karakteristike. Ova svojstva mogu na različite načine biti kategorička (npr. „A“, „B“, „AB“ ili „O“, za krvnu grupu), redna (npr. „velika“, „srednja“ ili „mala“), celobrojna (npr. broj pojavljivanja određene reči u e-poruci) ili realne vrednosti (npr. merenje krvnog pritiska). Drugi klasifikatori rade tako što upoređuju posmatranja sa prethodnim posmatranjima pomoću funkcije sličnosti ili udaljenosti.
Algoritam koji implementira klasifikaciju, posebno u konkretnoj implementaciji, poznat je kao klasifikator. Termin „klasifikator” ponekad se odnosi i na matematičku funkciju, implementiranu klasifikacionim algoritmom, koja mapira ulazne podatke u kategoriju.
Terminologija u različitim oblastima je prilično raznolika. U statistici, gde se klasifikacija često vrši logističkom regresijom ili sličnim postupkom, svojstva zapažanja se nazivaju objašnjavajuće varijable (ili nezavisne varijable, regresori, itd), a kategorije koje treba predvideti poznate su kao ishodi, za koje se smatra da su moguće vrednosti zavisne promenljive. U mašinskom učenju, zapažanja su često poznata kao instance, objašnjavajuće varijable se nazivaju karakteristike (grupisane u vektor karakteristika), a moguće kategorije koje treba predvideti su klase. Druge oblasti mogu koristiti drugačiju terminologiju: npr. u ekologiji zajednice, termin „klasifikacija” se obično odnosi na klastersku analizu.
Klasifikacija i grupisanje su primeri opštijeg problema prepoznavanja obrazaca, a to je dodeljivanje neke vrste izlazne vrednosti datoj ulaznoj vrednosti. Drugi primeri su regresija, koja svakom ulazu dodeljuje izlaz realne vrednosti; sekvenciono označavanje, koje dodeljuje klasu svakom članu niza vrednosti (na primer, označavanje dela govora, koje dodeljuje deo govora svakoj reči u ulaznoj rečenici); raščlanjivanje, koje dodeljuje stablo raščlanjivanja ulaznoj rečenici, opisujući sintaksičku strukturu rečenice; itd.
Uobičajena podklasa klasifikacije je probabilistička klasifikacija. Algoritmi ove prirode koriste statističko zaključivanje da bi pronašli najbolju klasu za datu instancu. Za razliku od drugih algoritama, koji jednostavno daju „najbolju” klasu, probabilistički algoritmi daju verovatnoću da je instanca član svake od mogućih klasa. Najbolja klasa se obično bira kao ona sa najvećom verovatnoćom. Međutim, takav algoritam ima brojne prednosti u odnosu na neprobabilističke klasifikatore:
Rani rad na statističkoj klasifikaciji preduzeo je Fišer,[1][2] u kontekstu problema sa dve grupe, što je dovelo do Fišerove linearne diskriminantne funkcije kao pravila za dodeljivanje grupe novom posmatranju.[3] Ovaj rani rad pretpostavljao je da vrednosti podataka unutar svake od dve grupe imaju multivarijantnu normalnu distribuciju. Proširenje ovog istog konteksta na više od dve grupe je takođe razmatrano uz nametnuto ograničenje da pravilo klasifikacije treba da bude linearno.[3][4] Kasniji rad za multivarijantnu normalnu distribuciju omogućio je da klasifikator bude nelinearan:[5] može se izvesti nekoliko pravila klasifikacije na osnovu različitih prilagođavanja Mahalanobisove udaljenosti, pri čemu je novo posmatranje dodeljeno grupi čiji centar ima najnižu prilagođenu udaljenost od opservacije.
Za razliku od frekventističkih procedura, Bajesovske klasifikacijske procedure obezbeđuju prirodan način uzimanja u obzir svih dostupnih informacija o relativnim veličinama različitih grupa unutar ukupne populacije.[6] Bajesove procedure imaju tendenciju da budu računski skupe i, u danima pre nego što su razvijena izračunavanja Markovljevog lanca Monte Karlo, osmišljene su aproksimacije za Bajesova pravila grupisanja.[7]
Neke Bajesove procedure uključuju izračunavanje verovatnoće članstva u grupi: one daju informativniji rezultat od jednostavnog pripisivanja jedne oznake grupe svakom novom zapažanju.
Klasifikacija se može posmatrati kao dva odvojena problema – binarna klasifikacija i višeklasna klasifikacija. U binarnoj klasifikaciji, bolje razumljivom zadatku, uključene su samo dve klase, dok multiklasna klasifikacija uključuje dodeljivanje objekta jednoj od nekoliko klasa.[8] Pošto su mnoge metode klasifikacije razvijene posebno za binarnu klasifikaciju, višeklasna klasifikacija često zahteva kombinovanu upotrebu više binarnih klasifikatora.
Većina algoritama opisuje pojedinačnu instancu čija kategorija treba da se predvidi korišćenjem vektora karakteristika pojedinačnih, merljivih svojstava instance. Svako svojstvo se naziva obeležje, takođe poznato u statistici kao objašnjavajuća varijabla (ili nezavisna varijabla, iako karakteristike mogu ili ne moraju biti statistički nezavisne). Funkcije mogu biti različito binarne (npr. „uključeno“ ili „isključeno“); kategoričke (npr. „A”, „B”, „AB” ili „O”, za krvnu grupu); redne (npr. „veliki”, „srednji” ili „mali”); sa celobrojnim vrednostima (npr. broj pojavljivanja određene reči u e-poruci); ili realnim vrednostima (npr. merenje krvnog pritiska). Ako je instanca slika, vrednosti karakteristika mogu odgovarati pikselima slike; ako je instanca deo teksta, vrednosti obeležja mogu biti učestalosti pojavljivanja različitih reči. Neki algoritmi funkcionišu samo u smislu diskretnih podataka i zahtevaju da podaci sa realnom ili celobrojnom vrednošću budu diskretizovani u grupe (npr. manje od 5, između 5 i 10 ili veće od 10).
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.