DALL-E - Wikiwand

DALL-E (ou DALL·E) est un programme d'intelligence artificielle générative, capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí^[2]^,^[3].

Faits en bref Créateur, Développé par ...

Informations
Créateur	OpenAI
Développé par	Open AI
Fichier exécutable	Images générées à partir de commandes naturelles
Première version	5 janvier 2021
Écrit en	GPT-3^[1]
Supporte les langages	langage naturel
Langues	Anglais
Type	Intelligence artificielle générative
Site web	www.openai.com/blog/dall-e/

Microsoft a implémenté le modèle dans l'outil Image Creator de Bing et prévoit de l'implémenter dans son application Designer^[4].

DALL-E utilise une version à 12 milliards de paramètres^[3] du modèle de langage GPT-3^[1] pour interpréter les entrées (commandes) en langage naturel (telles que par exemple : « un sac à main en cuir vert en forme de pentagone » ou « une vue isométrique d'un capybara triste »), et générer les images demandées^[2]. Il peut créer des images d'objets réalistes (« un vitrail avec l'image d'une fraise bleue »), mais aussi des objets qui n'existent pas dans la réalité (ex. : « un cube avec la texture d'un porc-épic »)^[5]^,^[6]^,^[7].

DALL-E a été cité comme le logiciel existant faisant le plus preuve de créativité^[8].

Remove ads

Spécificité

Depuis les années 2000, de nombreux réseaux de neurones ont pu générer des images réalistes^[2]. La spécificité de DALL-E est de pouvoir les générer à partir d'invites en langage naturel, qu'il « comprend », et « il échoue rarement »^[2].

Code source

OpenAI n'a pas publié de code source pour l'un ou l'autre modèle, bien qu'une « démo contrôlée » de DALL-E soit disponible sur le site Web d'OpenAI, où la sortie d'une sélection limitée d'exemples d'invites peut être visualisée^[3].

Des alternatives open source, formées sur de plus petites quantités de données, comme DALL-E Mini, ont été publiées par d'autres.

Selon la MIT Technology Review, l'un des principaux objectifs d'OpenAI était de « donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses »^[9].

Remove ads

Histoire

Résumé

Contexte

DALL-E a été révélé par OpenAI le 5 janvier 2021^[9].

En 2020, OpenAI constate que « tout comme un grand modèle de transformeur entraîné sur le langage peut générer du texte cohérent, le même modèle exact entraîné sur des séquences de pixels peut générer une image cohérente »^[10].

L'image GPT a montré que le même type de réseau de neurones peut aussi être utilisé pour générer des images avec une haute fidélité. Selon OpenAi (janvier 2021) : « la manipulation de concepts visuels par le langage est désormais à portée de main »^[10].

En avril 2022, OpenAI a annoncé DALL-E 2 (affirmant qu'il pouvait produire des images photoréalistes à partir de descriptions textuelles), ainsi qu'un éditeur permettant de simples modifications de la sortie. Lors de l'annonce, le logiciel était encore en phase de recherche, avec un accès limité à des utilisateurs bêta présélectionnés. Le modèle pouvait encore faire de graves erreurs, y compris des erreurs qu'aucun humain ne ferait^[11].

DALL-E 2 a été décrit comme un modèle qui « peut créer des images et des œuvres d'art originales et réalistes à partir d'une description textuelle. Il peut combiner des concepts, des attributs et des styles »^[12].

Selon Stable Diffusion, DALL-E créait déjà environ deux millions d’images par jour lors de la phase tests^[13]. Quand la plate-forme a atteint un million d’utilisateurs (mi-septembre 2022) Emad Mostaque a estimé que le seuil d'un milliard d’images par jour devrait être atteint « plutôt tôt que tard », surtout quand la possibilité de faire des animations sera activée^[13]. Peter Welinder, vice-président des produits et des partenariats d’OpenAI, a estimé lors du MIT Technology Review en juillet 2022 que DALL-E pourrait même un jour prochain dépasser ChatGPT 3 en intérêt^[13].

Une concurrence existe ou émerge, avec notamment DALL-E Mini, puis Craiyon (générateur d’images de moindre qualité mais gratuit) ou Midjourney et Stable Diffusion (qui sont eux de meilleure qualité). Google développe aussi, secrètement Imagen^[13].

On s'attend à ce que l'art assité par intelligence artificielle croisse très rapidement en volume et en créativité^[13].

Remove ads

CLIP

DALL-E a été développé et annoncé au public en collaboration avec CLIP (Contrastive Language-Image Pre-training)^[9].

CLIP est un modèle à part entière dont le rôle est de « comprendre et hiérarchiser » sa production^[2].

Les images générées par DALL-E sont organisées par CLIP, qui présente les images de la plus haute qualité pour une invite donnée^[9].

CLIP est un système de reconnaissance d'images^[14] qui a été entrainé à comprendre et classer ces images^[2] à partir de plus de 400 millions de paires d'images et de texte^[3] extraits d'Internet (plutôt que sur un ensemble de données organisé d'images étiquetées comme ImageNet)^[9]. CLIP associe les images à des légendes entières^[9].

CLIP a été entraîné pour prédire quelle légende (parmi une « sélection aléatoire » de 32 768 légendes possibles) était la plus appropriée pour une image, lui permettant ensuite d'identifier des objets dans des images en dehors de son ensemble de formation^[9].

Remove ads

Architecture

Article détaillé : GPT-3.

Le modèle baptisé Generative Pre-trained Transformer (GPT) a d'abord été développé par OpenAI, en 2018^[15]^{[réf. non conforme]}, en utilisant l'architecture Transformeur. La première itération, GPT, a été mise à l'échelle pour produire GPT-2 en 2019^[16] ; et en 2020, il a été de nouveau mis à l'échelle pour produire GPT-3, avec 175 milliards de paramètres^[3].

Le modèle de DALL-E est une implémentation multimodale de GPT-3^[17] avec 12 milliards de paramètres^[3] qui « échange du texte contre des pixels », entraînés sur des paires texte-image provenant d'Internet^[9].

Il utilise l'apprentissage en mode zero-shot (en) (Zero-shot learning : c'est-à-dire sans recours à des données d'apprentissage préalable^[18] pour générer une image à partir de la description et des indices qui lui sont directement fournis en consigne^[19]).

DALL-E génère plusieurs images en réponse aux invites.

Remove ads

Performance

Résumé

Contexte

DALL-E est capable de générer des images dans des styles variés, allant de l'imagerie photoréaliste^[3] aux peintures et emoji.

Il peut également « manipuler et réorganiser » des objets dans ses images^[3].

Une capacité notée par ses créateurs était le placement correct des éléments de conception dans de nouvelles compositions sans instruction explicite : « Par exemple, lorsqu'on lui demande de dessiner un radis daikon qui se mouche, sirote un café au lait ou monte sur un monocycle, DALL·E dessine souvent le mouchoir, mains et pieds à des endroits plausibles^[21] ».

Alors que DALL-E présentait une grande variété de compétences et de capacités, lors de la sortie de sa démo publique, la plupart des reportages se sont concentrés sur un petit sous-ensemble d'images de sortie « surréalistes »^[9] ou « excentriques »^[22].

Plus précisément, la sortie de DALL-E pour la requête « une illustration d'un bébé radis daikon dans un tutu promenant un chien » a été mentionnée dans des articles de Input^[23], NBC^[24], Nature^[25], et d'autres publications^[3]^,^[26]^,^[27]. Sa production pour « un fauteuil en forme d'avocat » a aussi été notée^[9]^,^[28].

Des capacités émergentes apparaissent parfois chez les logiciels basés sur l'apprentissage automatique :

DALL-E a appris à « remplir les blancs » et à déduire de nombreux détails appropriés sans invites spécifiques (ExtremeTech a noté qu'une invite à dessiner un pingouin portant un pull de Noël a donné des images de pingouins ne portant pas seulement des pulls, mais aussi des chapeaux de Père Noël, thématiquement liés^[29] ; et Engadget a noté qu'à l'invite « une peinture de renard assis dans un champ en hiver », Dall a produit une image où les ombres étaient placées de manière appropriée^[19].
DALL-E semble aussi avoir involontairement acquis des capacités de raisonnement visuel suffisantes pour résoudre les matrices de Raven (tests visuels souvent administrés aux humains pour mesurer l'intelligence)^[30].
DALL-E a une compréhension des tendances visuelles et de conception ; selon ExtremeTech, « vous pouvez demander à DALL-E de produire une image de téléphone ou d'un aspirateur correspondant à un moment particulier du temps de temps spécifiée, et il comprendra comment ces objets ont changé^[29] ». Engadget a également noté sa capacité inhabituelle à « comprendre comment les téléphones et autres objets changent avec le temps^[19] ». DALL-E a été décrit, avec d'autres « IA étroites » comme AlphaGo, AlphaFold et GPT-3 comme « [générant] de l'intérêt pour savoir si et comment l'intelligence artificielle générale peut être atteinte^[31]^{[réf. non conforme]} ».

DALL-E a été décrit comme « remarquablement robuste à de tels changements » et fiable dans la production d'images pour une grande variété de descriptions arbitraires^[2].

Sam Shead, journaliste pour CNBC, a qualifié ses images de « décalées » et a cité Neil Lawrence, professeur d'apprentissage automatique à l'université de Cambridge, qui l'a décrit comme une « démonstration inspirante de la capacité de ces modèles à stocker des informations sur notre monde et généraliser d'une manière que les humains trouvent très naturelle ».

Shead a aussi cité Mark Riedl (professeur agrégé à la Georgia Tech School of Interactive Computing). Selon ce dernier, DALL-E a montré qu'il était capable de « mélanger de manière cohérente des concepts », ce qui est un élément clé de la créativité humaine. La démo de DALL-E a été remarquable pour produire des illustrations beaucoup plus cohérentes que les autres systèmes Text2Image vus ces dernières années^[22]. Riedl, à la BBC s'est aussi dit « impressionné par ce que le système pouvait faire »^[28].

Remove ads

Aspects éthiques et moraux, et impacts sociétaux

Résumé

Contexte

Les modèles de langage comme GPT-3 ont un potentiel bénéfique pour la société (ex. : auto-complétion de code et d'écriture, assistance grammaticale, génération de narration de jeu, amélioration des réponses des moteurs de recherche et de la réponse à des questions…), mais les chercheurs qui les étudient sont également conscients qu'« ils ont aussi des applications potentiellement dangereuses », et que leur demande en capacité de calcul intensif les rend, au moins au stade de l'apprentissage, très consommateurs d'énergie (et donc contributeurs au réchauffement climatique)^[32].

Ainsi, les modèles de langage améliorés (comme GPT-3) améliorent grandement la qualité des textes et des images artificiellement générés, et disposent d'une adaptabilité bien plus grande que les modèles antérieurs, mais avec comme conséquence que distinguer le texte et les images synthétiques du texte écrit par l'homme et d'images réelles devient de plus en plus difficile, voire impossible^[32].

Ces modèles linguistiques « intelligents » ont un fort potentiel d'applications bénéfiques, mais aussi de conséquences ou d'applications néfastes^[32]. C'est pourquoi avant d'éventuellement largement diffuser ce type d'outil, des chercheurs étudient leur efficacité énergétique, leurs méfaits potentiels (pour pouvoir les atténuer). En particulier ils étudient les problèmes de partialité, d'équité et de représentation, problèmes qui peuvent apparaitre spontanément en raison de « contamination des données » notamment ; GPT-3 peut en effet intégrer :

des préjugés sexistes, raciaux et religieux (d'autres catégories de préjugés existent très probablement dans ces logiciels, encore à étudier) ;
des facteurs d'inéquité ;
d'autres types de discriminations liées aux biais et contenus des corpus et bases de données qu'il utilise pour son auto-apprentissage (une étude publiée en 2020 « indique que les modèles formés à Internet ont des biais à l'échelle d'Internet ; les modèles ont tendance à refléter les stéréotypes présents dans leurs données de formation »^[32]).

Le scandale Facebook-Cambridge Analytica^[33]^,^[34]/AggregateIQ et l'utilisation du logiciel Ripon^[35] qui semblent avoir permis l'élection de Donald Trump^[34]^,^[36], puis le Brexit^[37], et la manipulation frauduleuse d'une vingtaine d'élections dans le monde ont montré la réalité d'un autre risque : celui d'utilisations abusives délibérées, par exemple pour la désinformation (de la publicité à la propagande politique…), l'hameçonnage, l'abus des procédures légales et gouvernementales, la rédaction frauduleuse d'articles, d'ouvrages ou d'essais universitaires, ou d'œuvres d'art ; l'ingénierie sociale^[32].

Au début des années 2020, OpenAI et divers chercheurs cherchent donc aussi à « analyser les impacts sociétaux » que peut générer DALL-E et/ou le programme GPT-3, par exemple s'ils sont détournés pour produire de faux textes et de fausses images ou vidéo pouvant donner l'impression d'une vérité ou au moins d'une parfaite plausibilité et cohérence^[38] et « le potentiel de biais » de ce logiciel avant de le publier pour un usage général^[22].

Ces intelligences artificielles sont particulièrement susceptibles d'être mal utilisées et/ou sciemment détournées pour des usages illégaux, non-éthiques et sociétalement dangereux, on cherche à faire en sorte qu'ils soient en mesure de se défendre de tels usages^[32]^{[réf. non conforme]}. Dans le monde, plusieurs Partenariats sur l'IA visent à traiter ces sujets, de manière plus ou moins pluridisciplinaire et collaborative, dont sous l'égide de l'OCDE.

Article détaillé : Partenariat sur l'IA.

Remove ads

Consommation d'énergie et contribution à l'effet de serre

Résumé

Contexte

Dans un monde aux ressources finies, et dans le contexte du réchauffement climatique, le rendement énergétique et la soutenabilité des intelligences artificielles deviennent un enjeu majeur^[32].

Le modèle de langage amélioré sous-jacent, ainsi que les outils de génération d'images doivent en effet être entrainés. Ceci se fait généralement à partir du Web et nécessite une énorme puissance de calcul, et est donc énergivore : à titre d'exemple, pour former le GPT-3 à 175 milliards de paramètres utilisé par DALL-E, il a fallu « plusieurs milliers de pétaflops-jours de calcul pour son temps de pré-formation (contre quelques dizaines de pétaflops-jours pour un modèle GPT-2 à 1,5 milliard de paramètres) »^[32].

Des modèles comme GPT-3 sont cependant ensuite étonnamment efficaces une fois entraînés : même avec le GPT-3 à 175 milliards de paramètres complet, la génération de 100 pages de contenu à partir d'un modèle formé peut alors ne consommer qu'environ 0,4 kWh, ou soit quelques centimes en coût énergétique^[32]. L'impact ou la dette carbone du système sera justifiée par l'usage ou des messages qu'on en fera (fonctions gadgets, jeux/cinéma, publicité, ou usages pédagogiques, scientifiques, etc.).

Des progrès algorithmiques associés à des techniques de « distillation de modèles » et des usages collaboratifs permettent d'ensuite diminuer le coût de ces modèles dans des contextes appropriés^[32], mais toujours avec le risque d'effet rebond bien connu des économistes.

Remove ads

Notes et références

Loading content...

Voir aussi

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads