From Wikipedia, the free encyclopedia
La clusterització de dades és una tècnica molt comuna en l'anàlisi estadística de dades. Bàsicament és la classificació d'objectes similars en diferents grups, o més precisament, la partició de les dades en diferents subconjunts (o clústers). Així doncs, les dades de cada subgrup idealment comparteixen un tret comú.
A grans trets, podem dividir els algorismes en jeràrquics o particionals.
En els primers, es generen clústers successius a partir de clústers ja establerts prèviament. Aquests poden ser aglomeratius si cada element es considera un clúster diferent i posteriorment van agrupant-se. O bé divisoris, si a partir del conjunt sencer es procedeix a dividir-lo en subconjunts més petits. En el segon cas, tots els clústers es determinen en una passada, sovint optimitzant-ho segons un criteri determinat. Al final del procés, es pot tornar a ubicar algunes de les entitats en altres clústers.
Per altra banda, cal destacar les tècniques de cerca per densitat i de 'clumping'. En les primeres, les entitats es consideren com a punts en un espai mètric i normalment es prima la incorporació de nous elements en clústers ja existents abans que crear-ne'n de nous. Les segones es caracteritzen per permetre l'existència de clústers que no siguin disjunts, això és, que els elements puguin incloure's en diferents subgrups simultàniament.
La noció de "clúster" no es pot definir amb precisió, i és per això que hi ha tants algorismes d'agrupació.[1] Hi ha un concepte en comú: un grup d'objectes de dades. Tanmateix, diferents investigadors utilitzen diferents models de clúster, i per a cadascun d'aquests models de clúster es poden donar, de nou, algorismes diferents. La noció de clúster, tal com la troben diferents algorismes, varia significativament en les seves propietats. Entendre aquests "models de clúster" és clau per entendre les diferències entre els diferents algorismes. Els models de clúster típics inclouen:
Un "agrupament" és essencialment un conjunt d'aquests clústers, que normalment conté tots els objectes del conjunt de dades. A més, pot especificar la relació dels clústers entre si, per exemple, una jerarquia de clústers incrustats entre si. Els agrupaments es poden distingir aproximadament com:
També hi ha distincions més concretes, per exemple:
Tal com s'ha esmentat anteriorment, els algorismes de clúster es poden classificar en funció del seu model de clúster. A continuació només es llisten els exemples més destacats d'algorismes d'agrupació, ja que hi ha més d'un centenar d'algorismes de clúster publicats. No tots proporcionen models per als seus clústers i, per tant, són difícils de categoritzar. (A la llista d'algorismes estadístics es pot trobar una visió general dels algorismes explicats a la Viquipèdia.)
No hi ha cap algorisme d'agrupament "correcte" objectivament, però com es va dir, "l'agrupament està en l'ull de l'espectador".[1] Sovint s'ha de triar empíricament l'algorisme d'agrupació més adequat per cada problema específic, tret que hi hagi una raó matemàtica per la qual un model de clúster sigui millor respecte a la resta.[1] Un algorisme dissenyat per a un tipus de model generalment fallarà en un conjunt de dades que conté un tipus de model radicalment diferent. Per exemple, el k-means no pot trobar clústers no convexos.[1]
L'agrupació basada en la connectivitat, també coneguda com a agrupació jeràrquica, es basa en la idea que els objectes estan més relacionats amb objectes propers que amb objectes més allunyats. Aquests algorismes connecten "objectes" per formar "clústers" en funció de la seva distància. Un clúster es pot descriure en gran manera per la distància màxima necessària per a connectar parts del clúster. A diferents distàncies es formaran diferents clústers, que es poden representar mitjançant un dendrograma. D’aquí és d'on ve el nom "agrupació jeràrquica". Aquests algorismes no proporcionen una única partició del conjunt de dades, sinó que proporcionen una àmplia jerarquia de clústers que es fusionen entre ells en determinades distàncies. En un dendrograma, l'eix Y marca la distància a la qual es fusionen els clústers, mentre que els objectes es col·loquen al llarg de l'eix X de manera que els grups no es barregin.
El clustering basat en la connectivitat comprèn un conjunt de mètodes que es diferencien per la manera com es calculen les distàncies. A part de l'elecció habitual de funcions de distància, l'usuari també ha de decidir el criteri d'enllaç a utilitzar (atès que un clúster consta de diversos objectes, hi ha diversos candidats per a calcular la distància). Les opcions més comuns com a criteri d'enllaç es coneixen com a agrupació d'enllaç únic (el mínim de distàncies d'objecte), agrupació d'enllaç complet (el màxim de distàncies d'objecte) i UPGMA o WPGMA("Mètode de grups de parells no ponderats o ponderats amb mitjana aritmètica", també conegut com a agrupació d'enllaços mitjans). A més, l'agrupació jeràrquica pot ser aglomerativa (començant amb elements únics i agregant-los en clústers) o divisòria (començant pel conjunt de dades complet i dividint-lo en particions).
Aquests mètodes no produiran una partició única del conjunt de dades, sinó una jerarquia a partir de la qual l'usuari encara haurà de triar els clústers adequats. No són molt robusts cap a les dades atípiques, que es mostraran com a clústers addicionals o fins i tot provocaran que altres clústers es fusionin (el que es coneix com a "fenomen d'encadenament", en particular amb l'agrupament d'enllaç únic). En el cas general, la complexitat és per al clustering aglomeratiu i per a l'agrupament divisiu,[3] que els fa massa lents per a grans conjunts de dades. Per a alguns casos especials, es coneixen mètodes òptims eficients (de complexitat ): SLINK[4] per a l'enllaç únic i CLINK[5] per a l'agrupació d'enllaços complets.
Article principal: k-means clustering
En l'agrupació basada en centroides, cada clúster està representat per un vector central, que no és necessàriament un membre del conjunt de dades. Quan el nombre de clústers es fixa en k, k-means dona una definició formal com a problema d'optimització: troba els k centres del clúster i assigna els objectes al centre del clúster més proper, de manera que les distàncies del clúster es minimitzin.
Se sap que el problema d'optimització en si és NP-complex i, per tant, l'enfocament comú és buscar només solucions aproximades. Un mètode aproximat particularment conegut és l'algorisme de Lloyd, sovint anomenat " algorisme k-means ". Tanmateix, només troba un òptim local i s'executa diverses vegades amb diferents inicialitzacions aleatòries. Les variacions de k -means sovint inclouen optimitzacions com l'elecció del millor de múltiples execucions, però també restringir els centroides als membres del conjunt de dades (k-medoids), escollint les mitjanes(k-medians clustering), escollint els centres inicials de manera menys aleatòria (k-means++) o permetent una assignació de clúster difusa (fuzzy c-means).
La majoria dels algorismes de tipus k - means requereixen que el nombre de clústers –k– s'especifiqui, cosa que es considera un dels majors inconvenients d'aquests algorismes. A més, els algorismes prefereixen clústers de mida similar, ja que sempre assignaran un objecte al centroide més proper. Això sovint condueix a tallar incorrectament les vores dels clústers (fet que no és sorprenent, ja que l'algoritme optimitza els centres del clúster, no les vores del clúster).
Els K-means tenen una sèrie de propietats teòriques interessants. En primer lloc, divideix l'espai de dades en una estructura coneguda com a diagrama de Voronoi. En segon lloc, conceptualment s'acosta a la classificació del veí més proper i, per tant, és popular en l'aprenentatge automàtic. En tercer lloc, es pot veure com una variació de l'agrupament basat en models i l'algoritme de Lloyd com una variació de l'algoritme de maximització d'expectatives per a aquest model que es discuteix a continuació.
Els problemes d'agrupament basats en centroides, com ara k-means i k-medoids, són casos especials del problema d'ubicació d'instal·lacions, un problema canònic a les comunitats de recerca d'operacions i geometria computacional. En un problema bàsic d'ubicació d'instal·lacions (del qual hi ha nombroses variants que modelen configuracions més elaborades), la tasca és trobar les millors ubicacions de magatzem per atendre de manera òptima un conjunt determinat de consumidors. Es poden veure els "magatzems" com a centroides de clúster i les "ubicacions dels consumidors" com les dades que s'han d'agrupar. Això fa possible aplicar les solucions algorítmiques ben desenvolupades pel problema de les instal·lacions al problema d'agrupació basat en el centroide que s’està considerant.
El model de clustering més relacionat amb l'estadística es basa en models de distribució. Aleshores, els components dels clústers es poden definir fàcilment com a objectes que pertanyen molt probablement a la mateixa distribució. Una propietat a mencionar d'aquest enfocament és que s'assembla molt a la manera en què es generen conjunts de dades artificials: mitjançant el mostreig d'objectes aleatoris d'una distribució.
Tot i que la base teòrica d'aquests mètodes és excel·lent, pateixen un problema clau conegut com a overfitting. Es pot evitar imposant restriccions a la complexitat del model. Un model més complex normalment serà capaç d'explicar millor les dades, cosa que dificulta inherentment l'elecció de la complexitat del model adequat.
Un mètode destacat és el conegut com a models de mescles gaussianes (utilitzant l'algorisme de maximització d'expectativa). Aquí, el conjunt de dades normalment es modela amb un nombre fix (per evitar l'ajustament excessiu) de distribucions gaussianes. Aquestes s'inicien aleatòriament i els seus paràmetres s'optimitzen iterativament per adaptar-se millor al conjunt de dades. Això convergirà a un òptim local, de manera que diverses execucions poden produir resultats diferents. Per tal d'obtenir un agrupament robust, els objectes sovint s'assignen a la distribució gaussiana a la qual probablement pertanyen; per a agrupacions suaus, això no és necessari.
L'agrupació basada en la distribució produeix models complexos per a clústers que poden capturar la correlació i la dependència entre els atributs. No obstant això, aquests algorismes suposen una càrrega addicional per a l'usuari: per a molts conjunts de dades reals, pot ser que no hi hagi un model matemàtic definit de manera concisa (per exemple, assumir distribucions gaussianes és una hipòtesi força forta sobre les dades).
En l'agrupació basada en la densitat,[6] els clústers es defineixen com a àrees de densitat més alta que la resta del conjunt de dades. Els objectes en zones disperses, que són necessaris per separar grups, solen considerar-se com a punts de soroll i de frontera.
El mètode de agrupació basat en la densitat més popular[7] és DBSCAN. En contrast amb molts mètodes més nous, inclou un model de clúster ben definit anomenat "densitat-accessibilitat". Similar a l'agrupament basat en enllaços, es basa en connectar punts a partir de determinats llindars de distància. Tanmateix, només connecta punts que compleixen un criteri de densitat, en la variant original definit com un nombre mínim d'altres objectes dins d'aquest radi. Un clúster consta de tots els objectes connectats per densitat (que poden formar un clúster de forma arbitrària, en contrast amb molts altres mètodes), a més de tots els objectes que es troben dins de l'abast d'aquests objectes. Una altra propietat interessant de DBSCAN és que la seva complexitat és bastant baixa (requereix un nombre lineal de consultes d'interval a la base de dades) i que descobreix essencialment els mateixos resultats a cada tirada, (per als punts centrals i de soroll sí, però no per als punts de frontera), sent així un algorisme determinista, i que per tant, no cal executar-lo diverses vegades. L'algorisme OPTICS és una generalització de DBSCAN que elimina la necessitat de triar un valor adequat per al paràmetre d'interval [e], i produeix un resultat jeràrquic relacionat amb el de l'agrupació d'enllaços. DeLi-Clu, Density-Link-Clustering combina idees de l'agrupament d'enllaç únic i OPTICS, eliminant el paràmetre completament i oferint millores de rendiment mitjançant l'ús d'un índex d'arbre-R.
El principal inconvenient de DBSCAN i OPTICS és que esperen algun tipus de caiguda de densitat per detectar les fronteres del clúster. En conjunts de dades amb, per exemple, distribucions gaussianes superposades, un cas d'ús comú en dades artificials, les vores del clúster produïdes per aquests algorismes sovint semblen arbitràries, perquè la densitat del clúster disminueix contínuament. En un conjunt de dades format per mescles de gaussianes, aquests algorismes gairebé sempre es veuen superats per mètodes com l'agrupació per maximització d'expectativa, que sí són capaços de modelar amb precisió aquest tipus de dades.
El mean-shift és un enfocament d'agrupació en què cada objecte es mou a l'àrea més densa de la seva proximitat, basat en l'estimació de la densitat del nucli. Finalment, els objectes convergeixen als màxims locals de densitat. De manera semblant a l'agrupació de k-means, aquests "atractors de densitat" poden servir com a representants del conjunt de dades, però el mean-shift pot detectar clústers de forma arbitraria similars a DBSCAN. A causa del costós procediment iteratiu i de l'estimació de la densitat, el mean-shift sol ser més lent que DBSCAN o k-means. A més d'això, l'aplicabilitat de l'algoritme de mean-shift a dades multidimensionals es veu obstaculitzada pel comportament poc suau de l'estimació de la densitat del nucli, que provoca una sobrefragmentació de les cues de clúster.
La tècnica basada en quadrícula s'utilitza per a un conjunt de dades multidimensional.[8] En aquesta tècnica, creem una estructura de quadrícula, i la comparació es realitza entre les cel·les. Aquest sistema basat en quadrícules és ràpid i té una complexitat computacional baixa. Hi ha dos tipus de mètodes d'agrupació basats en graelles: STING i CLIQUE.
Els passos implicats en l'algorisme d'agrupació basat en graelles són:
L'avaluació o validació dels resultats del clustering és tan difícil com la pròpia agrupació.[9] Els plantejaments més comuns inclouen l'avaluació " interna ", on l'agrupació es resumeix en un únic valor de qualitat, l'avaluació " externa ", on l'agrupació es compara amb una classificació ja existent de "veritat bàsica", l'avaluació " manual " duta a terme per un expert, i l'avaluació "indirecta" mitjançant l'avaluació de la utilitat del clustering en la seva aplicació.[10]
Les mesures d'avaluació interna pateixen un problema, representen funcions que per elles mateixes poden ser l'objectiu d'un clustering. Per exemple, es pot agrupar el conjunt de dades pel coeficient Silhouette; tot i que no es coneix cap algorisme eficient per fer-ho. Mitjançant l'ús de mesures d'avaluació interna com aquesta, un compara abans la similitud dels problemes d'optimització,[10] i no necessàriament com d'útil és el propi clustering.
L'avaluació externa té problemes similars: si tenim aquestes etiquetes de "veritat bàsica", llavors no ens fa falta fer clustering; i en aplicacions pràctiques normalment no tenim aquestes etiquetes. D'altra banda, les etiquetes només mostren una possible partició del conjunt de dades, la qual cosa no implica que no existeixi una agrupació diferent, i potser millor.
Per tant, cap d'aquests enfocaments pot jutjar en última instància la qualitat real d'una agrupació, per això es necessita l'avaluació humana,[10] que és molt subjectiva. No obstant, aquestes estadístiques poden ser força informatives per identificar agrupacions dolentes.[11]
Vegeu també: Determinació del nombre de clústers en un conjunt de dades
Quan un resultat d'agrupació s'avalua en funció de les dades que es van agrupar, això s'anomena avaluació interna. Aquests mètodes solen assignar la millor puntuació a l'algorisme que produeix clústers amb una gran similitud dins d'un clúster i una baixa similitud entre clústers. Un inconvenient d'utilitzar criteris interns en l'avaluació de clústers és que les puntuacions altes en una mesura interna no donen necessàriament com a resultat aplicacions efectives de recuperació d'informació. A més, aquesta avaluació està esbiaixada cap a algorismes que utilitzen el mateix model de clúster. Per exemple, l'agrupació k-means optimitza de manera natural les distàncies dels objectes, i un criteri intern basat en la distància probablement sobrevalorarà l'agrupació resultant.
Per tant, les mesures d'avaluació interna són les més adequades per obtenir una visió de situacions en què un algorisme funciona millor que un altre, però això no implica que un algorisme produeixi resultats més vàlids que un altre. La validesa mesurada per aquest índex depèn que aquest tipus d'estructura existeixi en el data set. Un algorisme dissenyat per a algun tipus de models no serà viable si el data set conté un conjunt de models radicalment diferent, o si l'avaluació mesura un criteri radicalment diferent. Per exemple, k-means només pot trobar clústers convexos, i molts índexs d'avaluació assumeixen clústers convexos. En un conjunt de dades amb clústers no convexos ni l'ús de k-means, ni d'un criteri d'avaluació que assumeixi convexitat, seria correcte.
Existeixen més d'una dotzena de mesures d'avaluació interna, generalment basades en la intuïció que els ítems d'un mateix clúster haurien de ser més semblants que els ítems de diferents clústers. : 115–121 Per exemple, es poden utilitzar els mètodes següents per avaluar la qualitat dels algorismes d'agrupació basats en criteris interns:
En l'avaluació externa, els resultats del clustering s'avaluen a partir de dades que no s'han utilitzat per a l'agrupació, com ara les etiquetes de classe conegudes i els punts de referència externs. Aquests punts de referència consisteixen en un conjunt d'elements prèviament classificats, i aquests conjunts solen ser creats per humans (experts). Així, els conjunts de referència es poden considerar com un estàndard d'or per a l'avaluació.[12] Aquests tipus de mètodes d'avaluació mesuren la proximitat de l'agrupació resultant a les classes de referència predeterminades. Tanmateix, recentment s'ha discutit si això és adequat per a dades reals, o només en conjunts de dades sintètiques amb una veritat bàsica de fets, com que les classes poden contenir estructura interna, els atributs presents poden no permetre la separació de clústers o les classes poden contenir anomalies. A més, des del punt de vista del descobriment del coneixement, la reproducció del coneixement conegut pot no ser necessàriament el resultat previst. En l'escenari especial de l'agrupació restringida, on la metainformació (com les etiquetes de classe) ja s'utilitza en el procés d'agrupació, la retenció d'informació per a finalitats d'avaluació no és trivial.
Una sèrie de mesures s'adapten a partir de variants utilitzades per avaluar les tasques de classificació. En lloc de comptar el nombre de vegades que una classe s'ha assignat correctament a un únic punt de dades (conegut com a veritables positius), aquestes mètriques de recompte de parells avaluen si es preveu que cada parell de punts de dades que es troba realment al mateix clúster estiguin al mateix clúster.
Igual que amb l'avaluació interna, existeixen diverses mesures d'avaluació externa, :[13] per exemple:
Mesurar la tendència del clúster és mesurar fins a quin punt existeixen clústers a les dades que s'han d'agrupar, i es pot realitzar com a prova inicial, abans d'intentar l'agrupació. Una manera de fer-ho és comparar les dades amb dades aleatòries. De mitjana, les dades aleatòries no haurien de tenir clústers:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.