Stable Diffusion

Stable Diffusion
Kehityshistoria
Ensijulkaisu	syyskuu 2022
Vakaa versio	2.1 / 7. joulukuuta 2022
Tiedot
Ohjelmistotyyppi	tekoälyohjelma
Alusta	selain
Ohjelmointikielet	Python
Lisenssi	CreativeML Open RAIL-M (käännä suomeksi)
Aiheesta muualla
	Verkkosivusto
	Infobox OK

Stable Diffusion on syväoppimiseen perustuva tekoälyohjelmisto, joka tuottaa kuvia tekstimuotoisesta kuvauksesta. Ohjelmisto julkaistiin syyskuussa 2022.

Pikafaktoja Kehityshistoria, Tiedot ...

Sulje

Ohjelmiston on kehittänyt Münchenin yliopiston CompVis-tutkimusryhmä professori Björn Ommerin johdolla.^[3] SD:n jatkokehitysversio on kesäkuussa 2023 julkaistu SDXL, joka on yhteensopiva vanhemman version työkalujen kanssa.^[4] 21. marraskuuta 2023 julkaistiin Stable Video Diffusion, joka voi luoda lyhyitä videoita kuvista.^[5]

Muista vastaavista tekoälyohjelmistoista Stable Diffusion eroaa siten, että se ei vaadi supertietokonetta ja on ilmaiseksi ladattavissa ja käytettävissä kotikoneella. Ohjelmiston käyttämä tekoälymalli on koulutettu miljardeilla kuvilla ymmärtämään esim. miltä auto näyttää tai miltä tietty taidetyyli näyttää. Malli on julkaistu CreativeML Open RAIL-M -lisenssillä käytettäväksi.^[3] Toisista ohjelmistoista Stable Diffusion eroaa myös siten että siitä ei ole sensuroitu sopimattomia termejä, alastomuutta tai julkisuuden henkilöiden kuvia.

Stable Diffusion on ollut myöhemmin laajan käyttäjien jatkokehityksen kohteena. Ohjelmistoon on lisäosia, kuten VAE:t (Variable Auto Encoder), joka on malli, joka parantaa kuvan laatua tekoälypohjaisella jälkikäsittelyllä.^[6] Alkuperäinen SD käytti yleisesti vae-ft-mse-840000-ema-pruned-VAE:a korjaamaan kuvissa olleita ongelmia ("vertavuotavat silmät").^[7] LoRA:t (Low-Rank Adaptation of Large Language Models) ovat puolestaan täsmäkoulutettuja malleja, joita voidaan käyttää SD:n varsinaisen ison mallin päällä. Jos käyttäjä haluaisi esimerkiksi laadukkaita kuvia Pokémoneista, voidaan malli täsmäkouluttaa pokémonien kuvilla tarvitsematta luoda kokonaista mallia.^[8] Lisämalleja erityisiin tarkoituksiin jaetaan esimerkiksi civitai.com-sivustolla.

Ohjelmiston käyttö vaatii 10 Gt näyttömuistia ja CUDA-laskentaa tukevan näytönohjaimen, mitä käytännössä tarkoittaa Nvidia RTX -sarjan näytönohjaimia.^[9] Ohjelmiston julkaisuaikaan tällainen laitteisto maksaa reilusti alle 2000 euroa.

Ohjelmistolle on myös tehty asennuspaketteja (kuten Easy Diffusion), jolla sen saa asennettua kotikoneelle yhdestä paketista muutaman kymmenen gigatavun latauksella. Paketti myös päivittää itsensä käynnistettäessä. Ohjelmistolle on myös tehty web-selaimessa toimivia käyttöliittymiä kuten ComfyUI ja AUTOMATIC1111 (ja AUTOMATIC1111:n forkkauksina mm. Anapnoe UX^[10] ja Vladmandic^[11]).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]