Modelo de texto para imagem

Um modelo de texto para imagem é uma técnica de aprendizado de máquina que gera uma imagem partindo de uma descrição em linguagem natural. Essa técnica surgiu na segunda metade da década de 2010, impulsionada pelo desenvolvimento de redes neurais profundas.

Em 2022, a qualidade das imagens geradas pelos modelos de texto para imagem mais avançados, como o DALL-E 3 da OpenAI, o Imagem do Google Brain, o Stable Diffusion da StabilityAI e o Midjourney, começou a se aproximar da qualidade de fotografias reais e de arte desenhada por humanos.

Os modelos de texto para imagem geralmente combinam um modelo de linguagem, que transforma o texto de entrada em uma representação latente, e um modelo gerador [en] de imagens, que produz uma imagem condicionada a essa representação. Os modelos mais eficazes geralmente foram treinados em enormes quantidades de dados de imagem e texto extraídos da web.^[1]

[1]