Stable Diffusion

Stable Diffusion
Tipus	Model de text a imatge, latent variable model (en) i Models de difusió
Versió inicial	22 agost 2022
Versió estable	SDXL 1.0 (26 juliol 2023); 0.0.1 (22 juny 2023)
Llicència	CreativeML Open RAIL-M (en)
Epònim	Models de difusió
Característiques tècniques
Sistema operatiu	Linux, macOS i Microsoft Windows
Escrit en	Python
Codi font	Fonts de codi
Codi font	Codi font
Més informació
Lloc web	stability.ai… (anglès)
Id. Subreddit	stablediffusion

Stable Diffusion és un model d'aprenentatge profund de text a imatge llançat el 2022. S'utilitza principalment per a generar imatges detallades condicionades a descripcions de text, tot i que també es pot aplicar a altres tasques com ara la restauració d'imatges, repintar i generar traduccions d'imatge a imatge guiades per una entrada de text.^[1]

Dades ràpides Tipus, Versió inicial ...

Tanca

Stable Diffusion és un model de difusió latent, una varietat de xarxes neuronals generatives profundes desenvolupades pel grup CompVis de la LMU de Múnic.^[2] El model ha estat llançat per una col·laboració de Stability AI, CompVis LMU i Runway amb el suport d'EleutherAI i LAION. ^[3]^[4]^[5] L'octubre de 2022, Stability AI va recaptar 101 milions de dòlars en una ronda liderada per Lightspeed Ventures i Coatue.^[6]

El codi i els pesos del model de Stable Diffusion són públics^[7] i es pot executar amb la majoria de maquinari de consum equipat amb una GPU modesta. Això va marcar una diferència dels models propietaris anteriors de text a imatge, com ara DALL-E i Midjourney, als quals només es podia accedir mitjançant serveis al núvol.^[8]^[9]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]