mètode d'aprenentatge profund en el qual dues xarxes neuronals competeixen entre si en un joc, aprenent a generar dades noves amb les mateixes estadístiques que el conjunt d'entrenament From Wikipedia, the free encyclopedia
Les xarxes generatives antagòniques, conegudes com a GAN (Gemerative Adversarial Networks, en anglès), són una classe d'algorismes d'intel·ligència artificial, el machine learning, que s'utilitzen en l'aprenentatge no supervisat, implementades per un sistema de dues xarxes neuronals que competeixen mútuament en una espècie de Joc de suma nul·la. Van ser presentades per Ian Goodfellow el 2014.
L'article o secció necessita millores de format. |
Aquesta tècnica pot generar fotografies que semblen autèntiques als observadors humans. Per exemple, una fotografia sintètica d'un gat que aconsegueixi enganyar al discriminador (una de les parts funcionals de l'algorisme), és probable que porti una persona qualsevol a acceptar-ho com una fotografia real.[1]
La idea principal de GAN es basa en l'entrenament indirecte a través d'un discriminador, una altra xarxa neuronal, que podrà dir quant de "realista" és una entrada, que s'actualitza dinàmicament.[2] Això vol dir que el generador no està entrenat per minimitzar la distància a una imatge específica, sinó per enganyar al discriminador. Això ens permet que el model pugui aprendre sense supervisió.
Les Xarxes Generatives Antagòniques són similars al mimetisme de biologia evolutiva, per una carrera evolutiva entre aquests dos.
Hi ha un problema amb la IA quan li demanem que es creï alguna cosa nova que no existeix. Com que no pot simular la nostra imaginació, tot i poder simular la nostra intel·ligència.
El 2014, durant un debat a un bar entre un estudiant de la Universitat de Mont-real i els seus companys van tenir una idea de com solucionar el problema.[4]
De fet, es van basar en investigacions anteriors, com els de Jürgen Schmidhuber sobre previsibilitat de minimització i curiositat artificial, o també l'aprenentatge de Turing de Li, Gauci i Bruto.
Ian Goodfellow, l'estudiant de la Universitat de Mont-real, en aquell moment de 29 anys, i que acabaria treballant per Google Brain, és actualment un dels investigadors millor pagats del sector.
El document que va firmar amb els seus set companys portava el títol de la seva invenció: "Generative Adversarial Nets", o Xarxa Generativa Antagònica.
Una xarxa genera els candidats (el model generador o xarxa generativa) i una altra els avalua (el model discriminatori o xarxa discriminatòria).[5] Típicament, la xarxa generativa aprèn a assignar elements d'un espai latent a una distribució de dades determinada, mentre la xarxa discriminatòria diferencia entre elements de la distribució de dades originals i els candidats produïts pel generador. L'objectiu de l'aprenentatge de la xarxa generativa és augmentar l'índex d'error de la xarxa discriminatòria (o sigui, "enganyar" la xarxa discriminatòria produint nous elements sintètics que semblen provenir de la distribució de dades autèntiques).[6]
En la pràctica, un conjunt de dades conegut serveix com el saber de partida pel discriminador. Entrenar al discriminador implica presentar-li mostres del conjunt de dades, fins que aconsegueix algun nivell d'exactitud. Habitualment, el generador està "sembrat" amb una entrada aleatoritzada que s'escull d'un espai latent predefinit (p. ex. una Distribució normal multivariable). Després, les mostres sintetitzades pel generador són avaluades pel discriminador. En ambdues xarxes s'aplica la retropropagació, de manera que el generador produeix imatges progressivament millors, mentre el discriminador es refina cada vegada més a l'hora de distingir aquestes imatges sintètiques.[7] Els generadors són normalment xarxes neuronals deconvolucionals, i els discriminadors són xarxes neuronals convolucionals.
La idea d'inferir models en un sistema competitiu (model versus discriminador) va ser proposada per Li, Gauci i Brut en 2013.[8] El seu mètode s'usa per a inferència conductista. Es denomina Aprenentatge de Turing, ja que l'esquema recorda molt al d'un Test de Turing.[9]
Les GAN es poden fer servir per a generar art. The Verge va escriure el març de 2019 que "les imatges creades per GAN s'han convertit en l'aspecte definitiu de l'art contemporani d'IA".[10]
Les GAN també es poden utilitzar per a crear fotos de models de moda imaginaris, sense necessitat de contractar un model, fotògraf o maquillador, ni pagar un estudi o transport.[11][12] Aquestes xarxes també han sigut utilitzades per la generació d'ombres virtuals.[13]
Les GAN poden millorar les imatges astronòmiques i simular les lents gravitacionals per a la investigació de la matèria fosca.[14] Es van utilitzar el 2019 per modelar amb èxit la distribució de la matèria fosca en una direcció determinada a l'espai i per predir la lent gravitatòria que es produirà.[15]
Les GAN s'han proposat com una manera ràpida i precisa de modelar la formació de raigs d'alta energia i modelar pluges mitjançant calorímetres d'experiments de física d'alta energia. També s'han entrenat les GAN per aproximar amb precisió els colls d'ampolla en simulacions computacionalment costoses d'experiments de física de partícules. Les aplicacions en el context dels experiments actuals i suggerits del CERN han demostrat el potencial d'aquests mètodes per accelerar la simulació i/o millorar la fidelitat de la simulació.[16]
El 2018, les GAN van arribar a la comunitat de video game modding, com un mètode per augmentar les textures 2D de baixa resolució en videojocs antics recreant-les en resolucions de 4k o superiors mitjançant l'entrenament d'imatges i, a continuació, reduint-les per tal que s'adaptin al nadiu del joc.
Amb una formació adequada, les GAN proporcionen una imatge de textura 2D més clara i nítida amb magnituds de qualitat superiors a l'original, alhora que mantenen completament el nivell de detalls, colors, etc. de l'original.
S'han plantejat preocupacions sobre l'ús potencial de la síntesi d'imatges humanes basada en GAN amb finalitats sinistres, per exemple, per produir fotografies i vídeos falsos, possiblement incriminats.[17]
Les GAN es poden utilitzar per generar fotos de perfil úniques i realistes de persones que no existeixen, per tal d'automatitzar la creació de perfils de xarxes socials falsos.[18]
L'any 2019 l'estat de Califòrnia va considerar[19] i va aprovar el 3 d'octubre de 2019 el projecte de llei AB-602,[20] que prohibeix l'ús de tecnologies de síntesi d'imatges humanes per fer pornografia falsa sense el consentiment de les persones representades, i el projecte de llei AB-730,[21] que prohibeix distribució de vídeos manipulats d'un candidat polític dins dels seixanta dies següents a les eleccions. Tots dos projectes de llei van ser escrits pel membre de l'Assemblea Marc Berman i signats pel governador Gavin Newsom. Les lleis van entrar en vigor el 2020.[22]
El programa Media Forensics de DARPA estudia maneres de contrarestar els mitjans falsos, inclosos els mitjans falsos produïts amb GAN.[23]
La investigació sobre aprenentatge de transferència d'última generació fa servir GAN per reforçar l'alineació de l'espai de característiques latents, com ara l'aprenentatge de reforç profund.[24] Això funciona alimentant les incrustacions de la tasca d'origen i de destinació al discriminador que intenta endevinar el context. Aleshores, la pèrdua resultant es retropropaga (inversament) a través del codificador.
Les GAN es poden usar per a detectar imatges de glaucoma ajudant al diagnòstic precoç que és essencial per evitar la pèrdua parcial o total de la visió.[25]
Les GAN s'han utilitzat per crear reconstruccions facials forenses de personatges històrics morts.[26]
Les GAN poden reconstruir models 3D d'objectes a partir d'imatges,[27] generar objectes nous com a núvols de punts 3D [28] i modelar patrons de moviment en vídeo.[29]
La inspiració més directa per a les GAN va ser l’estimació de contrast de soroll,[30] que fa servir la mateixa funció de pèrdua que les GAN i que Goodfellow va estudiar durant el seu doctorat entre el 2010 i el 2014.
Altres investigadors havien tingut idees semblants, però ningú no les va desenvolupar de manera similar. L’any 2010, el finlandès Olli Nietmitalo,[31] va publicar una idea que involucrava les xarxes antagòniques en un bloc, era una idea que mai no s’havia implementat i que no usava estocasticitat al generador, per això no fou considerada un model generatiu, sinó que avui en dia es coneix com a GAN condicional.[32] Una idea similar a les GAN va ser usada l’any 2013 pels investigadors Li, Gauci i Gross per tal de modelar el comportament animal.[33]
L’aprenentatge automàtic adversari té altres usos a més del modelatge generatiu i es pot aplicar a diferents models de xarxes neuronals. Per exemple, en teoria de control, aquest aprenentatge adversari basat en xarxes neuronals es va usar l’any 2006 per tal d’entrenar controladors robustos en la teoria de jocs, alternant entre una política minimitzadora, controlador, i una de maximitzadora, la pertorbació.[34][35]
L’any 2017 es va fer ús d'una GAN per a millorar una imatge centrant-se en les textures realistes en comptes de la precisió per píxel, això va produir una qualitat superior, amb una gran millora.[36] El mateix 2017 es van generar els primers rostres,[37] els quals es van exhibir el febrer del 2018 al Grand-Palais de París.[38][39] Les cares generades per l'StyleGAN[40] el 2019 van generar comparacions amb falsificacions profundes (deep fakes).[41][42][43]
A partir del 2017, les tecnologies GAN van començar a fer notar la seva presència també en el camp de les belles arts, amb l’aparició d’una implementació recentment desenvolupada, que es va dir que travessava el llindar de poder generar pintures abstractes, úniques i atractives, anomenades CAN, “xarxa antagònica creativa”.[44] L’any 2018 es va fer servir un sistema GAN per crear la pintura Edmond de Belamy, que es va vendre per 432.500 $.[45] Més endavant, el 2019, un article escrit per membres originals del grup CAN, discutia el progrés addicional amb aquest sistema i també considerava les perspectives generals per un art habilitat per IA (intel·ligència artificial).[46]
El maig de 2019, els investigadors de Samsung varen mostrar un sistema basat en GAN, que produeix vídeos d’una persona parlant, partint únicament d’una foto d’aquesta.[47] A l’agost del mateix any, es va crear un gran conjunt de dades amb 12.197 cançons MIDI, cada una emparellada amb la seva lletra i melodia per la generació de melodies neuronals a partir de les lletres usant RGA-LSTM condicional.[48]
El maig del 2020, els investigadors de Nvidia varen ensenyar un sistema d'intel·ligència artificial, anomenat “GameGAN”, per recrear el joc Pac-Man simplement veient-lo jugar.[49][50]
Mentre el model GAN estàndard aprèn l’assignació d’un espai latent a la distribució de dades, els models inversos com el GAN Bidireccional (BiGAN)[51] i els codificadors automàtics antagònics (Adversarial Autoencoders)[52] també aprenen una assignació de dades a l’espai latent. Aquest mapatge invers permet que els exemples de dades reals o generadors es tornin a projectar en l’espai latent, de manera similar al codificador d’un codificador automàtic variacional. Les aplicacions dels models bidireccionals inclouen un aprenentatge semisupervisat,[53] l'aprenentatge automàtic interpretable[54] i la traducció automàtica neuronal.[55]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.