![cover image](https://wikiwandv2-19431.kxcdn.com/_next/image?url=https://upload.wikimedia.org/wikipedia/commons/thumb/d/d3/Astronaut_Riding_a_Horse_%2528SDXL%2529.jpg/640px-Astronaut_Riding_a_Horse_%2528SDXL%2529.jpg&w=640&q=50)
Stable Diffusion
From Wikipedia, the free encyclopedia
Stable Diffusion és un model d'aprenentatge profund de text a imatge llançat el 2022. S'utilitza principalment per a generar imatges detallades condicionades a descripcions de text, tot i que també es pot aplicar a altres tasques com ara la restauració d'imatges, repintar i generar traduccions d'imatge a imatge guiades per una entrada de text.[1]
![]() ![]() | |
Tipus | Model de text a imatge, latent variable model (en) ![]() ![]() |
---|---|
Versió inicial | 22 agost 2022 ![]() |
Versió estable | |
Llicència | CreativeML Open RAIL-M (en) ![]() ![]() |
Epònim | Models de difusió ![]() |
Característiques tècniques | |
Sistema operatiu | Linux, macOS i Microsoft Windows ![]() |
Escrit en | Python ![]() |
Més informació | |
Lloc web | stability.ai… (anglès) ![]() |
Id. Subreddit | stablediffusion ![]() |
| |
Stable Diffusion és un model de difusió latent, una varietat de xarxes neuronals generatives profundes desenvolupades pel grup CompVis de la LMU de Múnic.[2] El model ha estat llançat per una col·laboració de Stability AI, CompVis LMU i Runway amb el suport d'EleutherAI i LAION. [3][4][5] L'octubre de 2022, Stability AI va recaptar 101 milions de dòlars en una ronda liderada per Lightspeed Ventures i Coatue.[6]
El codi i els pesos del model de Stable Diffusion són públics[7] i es pot executar amb la majoria de maquinari de consum equipat amb una GPU modesta. Això va marcar una diferència dels models propietaris anteriors de text a imatge, com ara DALL-E i Midjourney, als quals només es podia accedir mitjançant serveis al núvol.[8][9]