From Wikipedia, the free encyclopedia
DALL-E (estilizado como DALL·E ), DALL-E 2 e DALL-E 3 son modelos de aprendizaxe automática desenvolvidos por OpenAI para xerar imaxes dixitais a partir de descricións en linguaxe natural. DALL-E foi revelado por OpenAI nunha publicación de blog en xaneiro de 2021 e usa unha versión de GPT-3 modificada para xerar imaxes. En abril de 2022, OpenAI anunciou DALL-E 2, un sucesor deseñado para xerar imaxes máis realistas a resolucións máis altas que "poden combinar conceptos, atributos e estilos".[1]
DALL-E | |
---|---|
[[Ficheiro:|100px]] Imaxe xerada por DALL-E a partir do prompt (indicación de texto) "Teddy bears working on new AI research underwater with 1990s technology" | |
Autor orixinal | OpenAI |
Lingua/s | Linguas presentes en Internet. Páxina oficial en inglés. |
Tipo | Modelo de texto a imaxe |
Sitio web | labs |
OpenAI non lanzou código fonte para ningún dos modelos, aínda que a saída dunha selección limitada de indicacións (prompts) de mostra está dispoñible no sitio web de OpenAI desde o 20 xullo 2022, DALL-E 2 entrou nunha fase beta con invitacións enviadas a 1 millón de persoas na lista de espera.[2] [3] Antes, o acceso estaba restrinxido aos usuarios preseleccionados para unha vista previa da investigación debido a problemas relacionados coa ética e a seguridade.[4] [5] A pesar diso, outros lanzaron varias imitacións de código aberto adestradas en pequenas cantidades de datos, como Craiyon ou Midjourney.[6] O 28 de setembro de 2022 OpenAI anunciou que DALL-E estaba á disposición dos usuarios sen necesidade de esperar na lista de agarda.[7]
O nome do software é unha combinación dos nomes do personaxe do robot animado de Pixar WALL-E e do artista surrealista Salvador Dalí.
O modelo Generative Pre-Trained Transformer (GPT) foi desenvolvido inicialmente por OpenAI en 2018, usando a arquitectura 'Transformer'. A primeira iteración, GPT, ampliouse para producir GPT-2 en 2019; en 2020 foi ampliado de novo para producir GPT-3, con 175 mil millóns de parámetros. O modelo de DALL-E é unha implementación multimodal de GPT-3 con 12 mil millóns de parámetros que "cambia texto por píxeles", adestrado en pares texto-imaxe de Internet (véxase modelo de texto a imaxe). DALL-E 2 usa 3.500 millóns de parámetros, un número menor que o seu predecesor.[8]
DALL-E foi desenvolvido e anunciado ao público en conxunto co CLIP (Contrastive Language-Image Pre-training). CLIP é un modelo separado baseado na aprendizaxe zero-shot que foi adestrado en 400 millóns de pares de imaxes con subtítulos de texto extraídos de Internet.[9] O seu papel é "comprender e clasificar" a saída de DALL-E predicindo que subtítulos dunha lista de 32.768 subtítulos seleccionados aleatoriamente do conxunto de datos (dos cales un era a resposta correcta) sería o máis adecuado para unha imaxe. Este modelo úsase para filtrar unha lista inicial maior de imaxes xeradas por DALL-E para seleccionar as saídas máis adecuadas.
DALL-E 2 usa un modelo de difusión condicionado a incrustacións de imaxes CLIP, que son xeradas a partir de incrustacións de texto CLIP por un modelo anterior.[10]
DALL-E pode xerar imaxes en varios estilos, incluíndo imaxes fotorrealistas, pinturas e emojis. Pode "manipular e reorganizar" obxectos nas súas imaxes, e pode colocar correctamente elementos de deseño en composicións novidosas sen instrucións explícitas. Thom Dunn escribiu para BoingBoing comentou que "Por exemplo, cando se lle pide que debuxe un rabanete daikon soando o nariz, tomando un cafe-latte ou montando un monociclo, DALL-E adoita debuxar o pano, as mans e os pés en lugares plausibles". DALL-E mostrou a capacidade de "encher os espazos en branco" para inferir detalles axeitados sen indicacións específicas, como engadir imaxes de Nadal ás indicacións comunmente asociadas coa celebración, e sombras colocadas adecuadamente ás imaxes que non as mencionan. Ademais, DALL-E mostra unha ampla comprensión das tendencias visuais e de deseño.
DALL-E é capaz de producir imaxes para unha gran variedade de descricións arbitrarias desde varios puntos de vista con só fallos raros. Mark Riedl, profesor asociado da Georgia Tech School of Interactive Computing, descubriu que DALL-E podería combinar conceptos (descrito como un elemento clave da creatividade humana).
A súa capacidade de razoamento visual é suficiente para resolver as Matrices de Raven (probas visuais que adoitan administrarse aos humanos para medir a intelixencia).[11]
A dependencia de DALL-E 2 en conxuntos de datos públicos inflúe nos seus resultados e leva a nesgos algorítmicos nalgúns casos, como a xeración de maiores números de homes que de mulleres para solicitudes que non mencionan o xénero.[12] Os datos de adestramento de DALL-E 2 filtráronse para eliminar imaxes violentas e sexuais, pero descubriuse que isto aumenta o nesgo nalgúns casos, como a redución da frecuencia de xeración de mulleres.[13] OpenAI formulou a hipótese que isto pode deberse a que as mulleres tiñan máis probabilidades de ser sexualizadas nos datos de adestramento, o que fixo que o filtro tivese influído nos resultados.[13]
Unha preocupación sobre DALL-E 2 e modelos similares de xeración de imaxes é que poderían usarse para propagar deepfakes e outras formas de desinformación.[14] Como intento de mitigar isto, o software rexeita as solicitudes que impliquen figuras públicas e as cargas que conteñan rostros humanos.[15] Bloquéanse as solicitudes que conteñan contido potencialmente censurable e analízanse as imaxes cargadas para detectar material ofensivo.[16] Unha desvantaxe do filtrado baseado en indicadores é que é doado evitar o uso de frases alternativas que dan como resultado unha saída similar. Por exemplo, a palabra "sangue" é filtrada, pero "ketchup" e "líquido vermello" non.[17] [16]
Outra preocupación sobre DALLE-2 e modelos similares é que poderían causar desemprego tecnolóxico para artistas, fotógrafos e deseñadores gráficos debido á súa precisión e popularidade.[18] [19]
A comprensión da linguaxe de DALL-E 2 ten límites. Ás veces é incapaz de distinguir "Un libro amarelo e un vaso vermello" de "Un libro vermello e un floreiro amarelo" ou "Un panda facendo arte con leite" de "Arte con leite dun panda". Xera imaxes de "un astronauta montando a cabalo" cando se lle presenta a indicación "un cabalo montando un astronauta".[20] Tampouco consegue xerar as imaxes correctas en diversas circunstancias. Solicitar máis de 3 obxectos, certas negacións, números e frases conectadas poden producir erros e as características do obxecto poden aparecer no obxecto incorrecto. As limitacións adicionais inclúen o manexo do texto e a súa capacidade limitada para abordar información científica, como a astronomía ou as imaxes médicas.[21][22]
A maior parte da cobertura de DALL-E céntrase nun pequeno subconxunto de saídas "surrealistas" ou "estrafas". A produción de DALL-E para "unha ilustración dun bebé daikon rabanete cun tutú paseando a un can" foi mencionada en pezas de Input, NBC, Nature, e outras publicacións. A súa produción para "unha cadeira de brazos en forma de aguacate" tamén foi moi cuberta.[7]
ExtremeTech afirmou que "podes pedir a DALL-E unha imaxe dun teléfono ou aspiradora dun período de tempo especificado, e comprende como cambiaron eses obxectos". Engadget tamén sinalou a súa infrecuente capacidade para "comprender como os teléfonos e outros obxectos cambian co paso do tempo".
Segundo MIT Technology Review, un dos obxectivos de OpenAI era "dar aos modelos lingüísticos unha mellor comprensión dos conceptos cotiáns que usan os humanos para dar sentido ás cousas".
Houbo varios intentos de crear implementacións de código aberto de DALL-E.[23] Lanzado en 2022 na plataforma Hugging Face's Spaces, Craiyon (anteriormente DALL-E Mini até que OpenAI solicitou un cambio de nome en xuño de 2022) é un modelo de IA baseado no DALL-E orixinal que foi adestrado sobre datos non filtrados de Internet. A mediados de 2022, tras o seu lanzamento, atraeu unha importante atención dos medios debido á súa capacidade para producir memes e imaxes humorísticas.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.