From Wikipedia, the free encyclopedia
ස්ථායී විසරණය යනු විසරණ ශිල්පීය ක්රම මත පදනම්ව 2022 දී නිකුත් කරන ලද ගැඹුරු ඉගෙනුම්, පෙළ සිට රූපය දක්වා ආකෘතියකි . එය ප්රධාන වශයෙන් භාවිතා වන්නේ පෙළ විස්තර මත කොන්දේසි සහිත සවිස්තරාත්මක රූප උත්පාදනය කිරීම සඳහා වන නමුත්, එය තීන්ත ආලේප කිරීම, තීන්ත ආලේප කිරීම සහ පෙළ විමසුමකින් මඟ පෙන්වන රූපයෙන් රූපයට පරිවර්තන ජනනය කිරීම වැනි වෙනත් කාර්යයන් සඳහා ද යෙදිය හැකිය. [3] එය ස්ථායීතා AI සහ ලාභ නොලබන සංවිධානවල පුහුණු දත්ත සමඟින් මියුනිච් සහ ධාවන පථයේ ලුඩ්විග් මැක්සිමිලියන් විශ්ව විද්යාලයේ CompVis සමූහයේ පර්යේෂකයන් විසින් සංවර්ධනය කරන ලදී. [4] [5] [6]
Original author(s) | Runway, CompVis, and Stability AI |
---|---|
සංවර්ධක(යෝ) | Stability AI |
ප්රථම නිකුතුව | August 22, 2022 |
ස්ථායි නිකුතුව | SDXL 1.0 (model)[1]
/ July 26, 2023 |
Repository | github.com/Stability-AI/stablediffusion |
ක්රමලේඛන භාෂා(ව) | Python[2] |
මෙහෙයුම් පද්ධතිය | Any that support CUDA kernels |
වර්ගය | Text-to-image model |
බලපත්රය | Creative ML OpenRAIL-M |
වෙබ් අඩවිය | stability |
ස්ථායී විසරණය යනු ගුප්ත විසරණ ආකෘතියකි, ගැඹුරු ජනක කෘතිම ස්නායු ජාලයකි . එහි කේත සහ මාදිලි බර ප්රසිද්ධියේ නිකුත් කර ඇත, [7] එය අවම වශයෙන් 8ක් සහිත සාමාන්ය GPU එකකින් සමන්විත බොහෝ පාරිභෝගික දෘඩාංග මත ක්රියාත්මක විය හැක. GB VRAM . මෙය ක්ලවුඩ් සේවා හරහා පමණක් ප්රවේශ විය හැකි DALL-E සහ Midjourney වැනි පෙර හිමිකාර පෙළ-සිට-පින්තූර ආකෘතිවලින් බැහැරවීමක් සලකුණු කළේය. [8]
ස්ථායී විසරණයේ සංවර්ධනය සඳහා අරමුදල් සපයනු ලැබුවේ සහ හැඩගැස්වූයේ ආරම්භක සමාගමක් වන Stability AI විසිනි. [9] [10] ආකෘතිය සඳහා තාක්ෂණික බලපත්රය Munich හි Ludwig Maximilian විශ්ව විද්යාලයේ CompVis සමූහය විසින් නිකුත් කරන ලදී. ධාවන පථයේ පැට්රික් එසර් සහ CompVis හි රොබින් රොම්බාච් විසින් සංවර්ධනය මෙහෙයවනු ලැබූ අතර, ස්ථායී විසරණය විසින් භාවිතා කරන ලද ගුප්ත විසරණ ආකෘති ගෘහ නිර්මාණ ශිල්පය මීට පෙර සොයා ගත් පර්යේෂකයන් අතර විය. ස්ථායීතා AI විසින් EleutherAI සහ LAION (ස්ථාවර විසරණය පුහුණු කරන ලද දත්ත කට්ටලය එකලස් කරන ලද ජර්මානු ලාභ නොලබන ආයතනයක්) ව්යාපෘතියේ ආධාරකරුවන් ලෙස ද බැර කරන ලදී.
2022 ඔක්තෝම්බර් මාසයේදී, ස්ථායිතා AI විසින් US$101ක් රැස් කරන ලදී Lightspeed Venture Partners සහ Coatue Management විසින් මෙහෙයවන ලද වටයකින් මිලියනයක්. [11]
ස්ථායී විසරණය LMU මියුනිච් හි CompVis සමූහය විසින් සංවර්ධනය කරන ලද ගුප්ත විසරණ ආකෘතිය (LDM) ලෙස හඳුන්වන විසරණ ආකෘතියක් (DM) භාවිතා කරයි. [7] 2015 දී හඳුන්වා දෙන ලද, විසරණ ආකෘති පුහුණු කරනු ලබන්නේ පුහුණු රූපවල ගවුසියන් ශබ්දයේ අනුප්රාප්තික යෙදුම් ඉවත් කිරීමේ අරමුණ ඇතිව වන අතර එය ස්වයංක්රීය කේතක නිෂේධනය කිරීමේ අනුපිළිවෙලක් ලෙස සැලකිය හැකිය. ස්ථායී විසරණය කොටස් 3 කින් සමන්විත වේ: විචල්ය ස්වයංක්රීය කේතකය (VAE), U-Net, සහ විකල්ප පෙළ කේතකයකි. [12] VAE කේතකය පික්සල් අවකාශයේ සිට කුඩා මාන ගුප්ත අවකාශයක් දක්වා රූපය සම්පීඩනය කරයි, රූපයේ වඩාත් මූලික අර්ථකථන අර්ථයක් ග්රහණය කරයි. ඉදිරි විසරණයේදී සම්පීඩිත ගුප්ත නිරූපණයට ගවුසියන් ඝෝෂාව නැවත නැවතත් යොදනු ලැබේ. [12] ResNet කොඳු නාරටියකින් සමන්විත U-Net බ්ලොක්, ගුප්ත නිරූපණයක් ලබා ගැනීම සඳහා ඉදිරි විසරණයේ සිට පසුපසට ප්රතිදානය ප්රතික්ෂේප කරයි . අවසාන වශයෙන්, VAE විකේතකය නිරූපනය නැවත පික්සල් අවකාශයට පරිවර්තනය කිරීමෙන් අවසාන රූපය ජනනය කරයි. [12]
denoising පියවර පෙළ පෙළක්, රූපයක් හෝ වෙනත් ක්රමයක් මත නම්යශීලී ලෙස සකස් කළ හැක. කේතනය කරන ලද සමීකරණ දත්ත හරස්-අවධානය යාන්ත්රණයක් හරහා U-Nets denoising කිරීමට නිරාවරණය වේ. [12] පෙළ මත කන්ඩිෂන් කිරීම සඳහා, ස්ථාවර, පෙර පුහුණු කළ CLIP ViT-L/14 පෙළ කේතකය පෙළ විමසුම් කාවැද්දීමේ ඉඩක් බවට පරිවර්තනය කිරීමට භාවිතා කරයි. [7] පර්යේෂකයන් LDM වල වාසියක් ලෙස පුහුණුව සහ උත්පාදනය සඳහා වැඩි කළ ගණනය කිරීමේ කාර්යක්ෂමතාව පෙන්වා දෙයි.
U-Net හි පරාමිති මිලියන 860 ක් සහ පෙළ සංකේතාකනයේ මිලියන 123 ක් සමඟින්, ස්ථායී විසරණය 2022 ප්රමිතීන් විසින් සාපේක්ෂව සැහැල්ලු ලෙස සලකනු ලබන අතර අනෙකුත් විසරණ මාදිලි මෙන් නොව, එය පාරිභෝගික GPU මත ක්රියාත්මක විය හැක. [13]
ස්ථායී විසරණය LAION-5B වෙතින් ලබාගත් රූප සහ සිරස්තල යුගල මත පුහුණු කරන ලදී, වෙබයෙන් ඉවත් කරන ලද Common Crawl දත්ත වලින් ලබාගත් ප්රසිද්ධියේ ලබා ගත හැකි දත්ත කට්ටලයක් වන අතර එහිදී රූප-පෙළ යුගල බිලියන 5 ක් භාෂාව මත පදනම්ව වර්ගීකරණය කර විභේදනය අනුව වෙනම දත්ත කට්ටලවලට පෙරා ඇත. දිය සලකුණක් අඩංගු වීමේ පුරෝකථනය කරන ලද සම්භාවිතාව සහ පුරෝකථනය කරන ලද "සෞන්දර්යාත්මක" ලකුණු (උදා: ආත්මීය දෘශ්ය ගුණාත්මකභාවය). [14] දත්ත කට්ටලය ස්ථායී AI වෙතින් අරමුදල් ලබන ජර්මානු ලාභ නොලබන LAION විසින් නිර්මාණය කරන ලදී. [14] [15] ස්ථායී විසරණ ආකෘතිය LAION-5B හි උප කුලක තුනක් මත පුහුණු කරන ලදී: laion2B-en, laion-high-resolution, සහ laion-aesthetics v2 5+. [14] ආකෘතියේ පුහුණු දත්තවල තෙවන පාර්ශවීය විශ්ලේෂණයක් 12 හි කුඩා උප කුලකයකින් එය හඳුනාගෙන ඇත භාවිතා කරන ලද මුල් පුළුල් දත්ත කට්ටලයෙන් ලබාගත් මිලියන අනුරූ, රූපවල නියැදි ප්රමාණයෙන් ආසන්න වශයෙන් 47% විවිධ වසම් 100කින් පැමිණ ඇති අතර, Pinterest උප කුලකයෙන් 8.5%ක් ලබා ගන්නා අතර, පසුව WordPress, Blogspot, Flickr, DeviantArt සහ Wikimedia Commons වැනි වෙබ් අඩවි විසින් ලබා ගන්නා ලදී. . [16] [14]
මෙම ආකෘතිය මුලින් පුහුණු කරන ලද්දේ laion2B-en සහ laion-high-resolution උප කුලක මත වන අතර, අවසාන පුහුණු වට කිහිපය LAION-Aesthetics v2 5+ මත සිදු කරන ලදී, එය 600 ක උප කුලකයකි. LAION-Aesthetics Predictor V2 විසින් පුරෝකථනය කරන ලද සිරස්තල සහිත රූප මිලියනයක්, මිනිසුන් සාමාන්යයෙන්, ඔවුන් කොපමණ කැමතිදැයි ශ්රේණිගත කිරීමට විමසූ විට අවම වශයෙන් 10න් 5ක්වත් ලකුණු ලබා දෙනු ඇත. [17] [14] [18] LAION-5B-WatermarkDetection 80%කට වඩා වැඩි සම්භාවිතාවක් සහිත ජල සලකුණක් රැගෙන යන බවට හඳුනාගෙන ඇති අඩු-විභේදන රූප සහ රූප ද LAION-Aesthetics v2 5+ උපකුලකයෙන් බැහැර කර ඇත. [14] වර්ගීකරණ-නිදහස් විසරණ මාර්ගෝපදේශය වැඩි දියුණු කිරීම සඳහා අවසාන පුහුණු වටයන් පෙළ සමීකරණයෙන් 10%ක් අඩු කරන ලදී.
$600,000 ක වියදමින් සම්පූර්ණ GPU-පැය 150,000ක් සඳහා Amazon වෙබ් සේවා මත Nvidia A100 GPU 256ක් භාවිතා කරමින් මෙම ආකෘතිය පුහුණු කරන ලදී. [19] [20] [21]
ස්ථායී විසරණයට පිරිහීම සහ ඇතැම් අවස්ථා වලදී සාවද්යභාවය පිළිබඳ ගැටළු ඇත. ආකෘතියේ මුල් නිකුතු 512×512 විභේදන රූප වලින් සමන්විත දත්ත කට්ටලයක් මත පුහුණු කරන ලදී, එනම් පරිශීලක පිරිවිතරයන් එහි "අපේක්ෂිත" 512×512 විභේදනයෙන් බැහැර වන විට ජනනය කරන ලද රූපවල ගුණාත්මක භාවය සැලකිය යුතු ලෙස පිරිහී යයි; [22] ස්ථායී විසරණ ආකෘතියේ 2.0 අනුවාදය යාවත්කාලීන කිරීම පසුව 768×768 විභේදනයකින් ස්වදේශීයව රූප ජනනය කිරීමේ හැකියාව හඳුන්වා දෙන ලදී. [23] තවත් අභියෝගයක් වන්නේ LAION දත්ත ගබඩාවේ ඇති අත් පා වල දුර්වල දත්ත ගුණාත්මක භාවය හේතුවෙන් මිනිස් අත් පා උත්පාදනය කිරීමයි. [24] දත්ත සමුදායේ නියෝජන ලක්ෂණ නොමැතිකම හේතුවෙන් ආකෘතිය මිනිස් අත් පා සහ මුහුණු තේරුම් ගැනීමට ප්රමාණවත් ලෙස පුහුණු කර නොමැති අතර, එවැනි ආකාරයේ රූප ජනනය කිරීමට ආකෘතිය පොළඹවීම ආකෘතිය ව්යාකූල කළ හැකිය. [25]
තනි සංවර්ධකයින් සඳහා ප්රවේශ්යතාව ද ගැටලුවක් විය හැකිය. සජීවිකරණ අක්ෂර ජනනය කිරීම ("වයිෆු විසරණය") වැනි දත්ත කට්ටලයට ඇතුළත් නොවන නව භාවිත අවස්ථා සඳහා ආකෘතිය අභිරුචිකරණය කිරීම සඳහා, [26] නව දත්ත සහ වැඩිදුර පුහුණුව අවශ්ය වේ. අතිරේක නැවත පුහුණු කිරීම හරහා නිර්මාණය කරන ලද ස්ථායී විසරණයේ සියුම් ලෙස සකස් කරන ලද අනුවර්තනයන් වෛද්ය රූපකරණයේ සිට ඇල්ගොරිතමය ලෙස ජනනය කරන ලද සංගීතය දක්වා විවිධ භාවිත අවස්ථා සඳහා භාවිතා කර ඇත. [27] කෙසේ වෙතත්, මෙම සියුම්-සුසර කිරීමේ ක්රියාවලිය නව දත්තවල ගුණාත්මක භාවයට සංවේදී වේ; අඩු විභේදන රූප හෝ මුල් දත්ත වලින් වෙනස් විභේදනයන් නව කාර්යය ඉගෙන ගැනීමට අපොහොසත් වනවා පමණක් නොව, ආකෘතියේ සමස්ත කාර්ය සාධනය පිරිහීමට ලක් කරයි. උසස් තත්ත්වයේ රූප මත ආකෘතිය අතිරේකව පුහුණු කර ඇති විට පවා, පාරිභෝගික ඉලෙක්ට්රොනික උපකරණවල ආකෘති ධාවනය කිරීමට පුද්ගලයන්ට අපහසු වේ. උදාහරණයක් ලෙස, වයිෆු-විසරණය සඳහා පුහුණු ක්රියාවලිය අවම වශයෙන් 30 ක් අවශ්ය වේ GB VRAM, [28] Nvidia හි GeForce 30 ශ්රේණිය වැනි පාරිභෝගික GPU වල 12ක් පමණ ඇති සාමාන්ය සම්පත ඉක්මවයි. GB [29]
ස්ථායී විසරණයෙහි නිර්මාපකයින් ඇල්ගොරිතම පක්ෂග්රාහී විභවය පිළිගනී, ආකෘතිය මූලික වශයෙන් ඉංග්රීසි විස්තර සහිත රූප මත පුහුණු කර ඇත. [20] එහි ප්රතිඵලයක් වශයෙන්, ජනනය කරන ලද රූප සමාජ අගතීන් ශක්තිමත් කරන අතර බටහිර දෘෂ්ටිකෝණයකින් යුක්ත වේ, එම ආකෘතියට අනෙකුත් ප්රජාවන් සහ සංස්කෘතීන්ගෙන් දත්ත නොමැති බව නිර්මාපකයින් සටහන් කරයි. බටහිර හෝ සුදු සංස්කෘතීන් බොහෝ විට පෙරනිමි නිරූපණය වන අනෙකුත් භාෂාවලින් ලියා ඇති ඒවාට සාපේක්ෂව ඉංග්රීසියෙන් ලියා ඇති විමසීම් සඳහා ආකෘතිය වඩාත් නිවැරදි ප්රතිඵල ලබා දෙයි. [20]
ආකෘතියේ මූලික පුහුණුවේ සීමාවන් ආමන්ත්රණය කිරීම සඳහා, අවසාන පරිශීලකයින් වඩාත් නිශ්චිත භාවිත අවස්ථා වලට ගැලපෙන පරිදි උත්පාදන ප්රතිදානයන් මනාව සකස් කිරීමට අමතර පුහුණුවක් ක්රියාත්මක කිරීමට තෝරා ගත හැකිය. ස්ථායී විසරණ ආකෘති මුරපොලකට පරිශීලක-ප්රවේශ විය හැකි සියුම් සුසර කිරීම යෙදිය හැකි ක්රම තුනක් ඇත:
ස්ථායී විසරණ ආකෘතිය ප්රතිදානයට ඇතුළත් කළ යුතු හෝ ඉවත් කළ යුතු මූලද්රව්ය විස්තර කරන පෙළ විමසුමක් භාවිතයෙන් මුල සිටම නව රූප ජනනය කිරීමේ හැකියාවට සහාය වේ. [7] එහි විසරණය-ඩෙනොයිසින් යාන්ත්රණය හරහා පෙළ ප්රේරකයක් ("මාර්ගෝපදේශිත රූප සංස්ලේෂණය" ලෙස හඳුන්වන ක්රියාවලියක්) මගින් විස්තර කරන ලද නව මූලද්රව්ය ඇතුළත් කිරීම සඳහා පවතින රූප ආකෘතිය මඟින් නැවත ඇඳිය හැක. [7] මීට අමතරව, විවිධ විවෘත මූලාශ්ර ක්රියාත්මක කිරීම් පවතින එවැනි විශේෂාංග සඳහා සහය දක්වන සුදුසු පරිශීලක අතුරුමුහුණතක් සමඟ භාවිතා කරන විට, පින්තාරු කිරීම සහ පිටත පින්තාරු කිරීම හරහා පවතින රූප අර්ධ වශයෙන් වෙනස් කිරීමට ප්රේරක භාවිතා කිරීමට මෙම ආකෘතිය ඉඩ දෙයි. [34]
ස්ථායී විසරණය 10 සමඟ ධාවනය කිරීම රෙකමදාරු කරනු ලැබේ GB හෝ ඊට වැඩි VRAM, කෙසේ වෙතත් අඩු VRAM සහිත පරිශීලකයන් අඩු VRAM භාවිතයක් සහිත මාදිලියේ කාර්ය සාධනය සඳහා පෙරනිමි float32 වෙනුවට float16 නිරවද්යතාවයෙන් බර පැටවීමට තෝරා ගත හැකිය. [22]
"txt2img" ලෙස හැඳින්වෙන ස්ථායී විසරණය තුළ ඇති පෙළ සිට රූප නියැදි ස්ක්රිප්ට්, නියැදි වර්ග, ප්රතිදාන රූප මානයන් සහ බීජ අගයන් ආවරණය වන විවිධ විකල්ප පරාමිතීන්ට අමතරව පෙළ විමසුමක් පරිභෝජනය කරයි. ස්ක්රිප්ට් මඟින් ප්රේරකයේ ආකෘතියේ අර්ථ නිරූපණය මත පදනම්ව රූප ගොනුවක් ප්රතිදානය කරයි. [7] ස්ථායී විසරණය මගින් ජනනය කරන ලද රූපයක් හඳුනා ගැනීමට පරිශීලකයින්ට ඉඩ දීම සඳහා ජනනය කරන ලද පින්තූර නොපෙනෙන ඩිජිටල් දිය සලකුණකින් ටැග් කර ඇත, [7] නමුත් රූපයේ ප්රමාණය වෙනස් කළහොත් හෝ කරකවන විට මෙම දිය සලකුණ එහි කාර්යක්ෂමතාව නැති වේ. [35]
සෑම txt2img පරම්පරාවක්ම නිමැවුම් රූපයට බලපාන නිශ්චිත බීජ අගයක් ඇතුළත් වේ. විවිධ ජනනය කරන ලද ප්රතිදානයන් ගවේෂණය කිරීම සඳහා පරිශීලකයන් බීජය සසම්භාවී කිරීමට තෝරා ගත හැකිය, නැතහොත් කලින් ජනනය කරන ලද රූපයක් ලෙස එකම රූපයේ ප්රතිදානය ලබා ගැනීමට එම බීජයම භාවිතා කරන්න. [22] පරිශීලකයින්ට නියැදිකරු සඳහා අනුමාන පියවර ගණන සකස් කිරීමට ද හැකිය; ඉහළ අගයක් දිගු කාලයක් ගත වේ, කෙසේ වෙතත් කුඩා අගයක් දෘශ්ය දෝෂ ඇති විය හැක. [22] තවත් වින්යාසගත කළ හැකි විකල්පයක්, වර්ගීකාරක-නිදහස් මාර්ගෝපදේශ පරිමාණ අගය, පරිශීලකයාට ප්රතිදාන රූපය විමසුමට කෙතරම් සමීපව අනුගත වේද යන්න සීරුමාරු කිරීමට ඉඩ සලසයි. වඩාත් පර්යේෂණාත්මක භාවිත අවස්ථා අඩු පරිමාණ අගයක් සඳහා තෝරා ගත හැකි අතර, වඩාත් නිශ්චිත ප්රතිදානයන් ඉලක්ක කරගත් භාවිත අවස්ථා ඉහළ අගයක් භාවිත කළ හැක. [22]
අමතර text2img විශේෂාංග ස්ථායී විසරණයේ ඉදිරිපස ක්රියාත්මක කිරීම් මගින් සපයනු ලැබේ, එමඟින් පෙළ විමසුමේ නිශ්චිත කොටස් වෙත ලබා දී ඇති බර වෙනස් කිරීමට පරිශීලකයින්ට ඉඩ සලසයි. අවධාරණ සලකුණු මඟින් ප්රධාන වචන වරහන් සමඟ කොටා ඒවාට අවධාරනය එක් කිරීමට හෝ අඩු කිරීමට පරිශීලකයින්ට ඉඩ සලසයි. [36] ප්රේරකයේ කොටස් වලට බර සකස් කිරීමේ විකල්ප ක්රමයක් වන්නේ "සෘණාත්මක විමසුම්" ය. Negative prompts යනු Stability AI ගේම DreamStudio ක්ලවුඩ් සේවාව ඇතුළුව, සමහර ඉදිරිපස ක්රියාත්මක කිරීම් වල අන්තර්ගත වන අංගයක් වන අතර, රූප උත්පාදනය කිරීමේදී ආකෘතිය මග හැරිය යුතු ප්රේරක නියම කිරීමට පරිශීලකයාට ඉඩ සලසයි. පරිශීලකයා විසින් සපයන ලද ධනාත්මක ප්රේරක හේතුවෙන් හෝ ආකෘතිය මුලින් පුහුණු කර ඇති ආකාරය හේතුවෙන්, සාමාන්ය උදාහරණයක් ලෙස විකෘති වූ මිනිස් දෑත් සමඟින්, නිශ්චය කරන ලද විමසුම් අනවශ්ය රූප ලක්ෂණ විය හැක. [34]
ස්ථායී විසරණයට තවත් නියැදි ස්ක්රිප්ට් එකක්, "img2img" ඇතුළත් වේ, එය පෙළ විමසුමක්, පවතින රූපයකට මාර්ගයක් සහ 0.0 සහ 1.0 අතර ප්රබල අගයක් පරිභෝජනය කරයි. ස්ක්රිප්ට් මුල් රූපය මත පදනම්ව නව රූපයක් ප්රතිදානය කරයි, එය පෙළ විමසුම තුළ සපයන ලද අංග ද දක්වයි. ප්රබල අගය මඟින් ප්රතිදාන රූපයට එකතු කරන ලද ශබ්ද ප්රමාණය දක්වයි. ඉහළ ප්රබල අගයක් රූපය තුළ වැඩි විචල්යයක් ඇති කරන නමුත් සපයා ඇති ප්රේරකයට අර්ථවත්ව අනුකූල නොවන රූපයක් නිපදවිය හැක. [7]
img2img හට මුල් රූපයට ඝෝෂාවක් එක් කිරීමට ඇති හැකියාව එය දත්ත නිර්නාමිකකරණය සහ දත්ත වැඩි කිරීම සඳහා ප්රයෝජනවත් විය හැකි අතර, රූප දත්තවල දෘශ්ය ලක්ෂණ වෙනස් කර නිර්නාමික කරයි. [37] එම ක්රියාවලියම රූපයේ විභේදනය වැඩි කරන, රූපයට වැඩි විස්තර එක් කිරීමට හැකි වන පරිදි, රූපය ඉහළ නැංවීම සඳහා ද ප්රයෝජනවත් විය හැක. [37] මීට අමතරව, ස්ථායී විසරණය රූප සම්පීඩනය සඳහා මෙවලමක් ලෙස අත්හදා බලා ඇත. JPEG සහ WebP හා සසඳන විට, ස්ථායී විසරණයේදී රූප සම්පීඩනය සඳහා භාවිතා කරන ලද මෑත ක්රම කුඩා අකුරු සහ මුහුණු සුරැකීමේ සීමාවන්ට මුහුණ දෙයි. [38]
img2img හරහා රූප වෙනස් කිරීම සඳහා අමතර භාවිත අවස්ථා ස්ථායී විසරණ ආකෘතියේ බොහෝ ඉදිරිපස ක්රියාත්මක කිරීම් මගින් ඉදිරිපත් කෙරේ. පින්තාරු කිරීම යනු පරිශීලක-සපයා ඇති ස්ථර ආවරණයක් මඟින් නිරූපණය කරන ලද පවතින රූපයක කොටසක් තෝරාගෙන වෙනස් කිරීම, සපයන ලද විමසුම මත පදනම්ව අලුතින් ජනනය කරන ලද අන්තර්ගතයෙන් වෙස්මුහුණු අවකාශය පුරවයි. [34] ස්ථායී විසරණය 2.0 නිකුත් කිරීමත් සමඟම ස්ථායීතා AI විසින් තීන්ත ආලේප කිරීම සඳහා විශේෂයෙන් මනාව සකස් කරන ලද විශේෂිත ආකෘතියක් නිර්මාණය කරන ලදී. [23] අනෙක් අතට, පිට පින්තාරු කිරීම රූපයක් එහි මුල් ප්රමාණයෙන් ඔබ්බට දිගු කරයි, සපයා ඇති විමසුම මත පදනම්ව ජනනය කරන ලද අන්තර්ගතයෙන් පෙර හිස් අවකාශය පුරවයි. [34]
2022 නොවැම්බර් 24 වන දින ස්ථායී විසරණය 2.0 නිකුත් කිරීමත් සමඟ "depth2img" ලෙස නම් කරන ලද ගැඹුර-මාර්ගෝපදේශ ආකෘතියක් හඳුන්වා දෙන ලදී. මෙම ආකෘතිය සපයා ඇති ආදාන රූපයේ ගැඹුර අනුමාන කරයි, සහ පෙළ විමසුම සහ ගැඹුර තොරතුරු යන දෙකම මත පදනම්ව නව ප්රතිදාන රූපයක් ජනනය කරයි, එමඟින් ජනනය කරන ලද ප්රතිදානය තුළ මුල් ආදාන රූපයේ සහජීවනය සහ ගැඹුර පවත්වා ගැනීමට ඉඩ සලසයි. [23]
ControlNet යනු අතිරේක කොන්දේසි ඇතුළත් කිරීමෙන් විසරණ ආකෘති කළමනාකරණය කිරීමට නිර්මාණය කර ඇති ස්නායුක ජාල ගෘහ නිර්මාණ ශිල්පයකි. එය ස්නායු ජාල කුට්ටිවල බර "අගුලු දැමූ" පිටපතක් සහ "පුහුණු කළ හැකි" පිටපතක් බවට අනුපිටපත් කරයි. "පුහුණු කළ හැකි" පිටපත අපේක්ෂිත තත්ත්වය ඉගෙන ගන්නා අතර, "අගුළු දැමූ" පිටපත මුල් ආකෘතිය ආරක්ෂා කරයි. මෙම ප්රවේශය මඟින් රූප යුගල කුඩා දත්ත කට්ටල සමඟ පුහුණු කිරීම නිෂ්පාදන-සූදානම් විසරණ ආකෘතිවල අඛණ්ඩතාවයට බාධාවක් නොවන බව සහතික කරයි. "ශුන්ය කැළඹීම" යනු බර සහ නැඹුරුව යන දෙකම ශුන්යයට ආරම්භ කරන ලද 1×1 සංකෝචනයකි. පුහුණු වීමට පෙර, සියලුම ශුන්ය කැළඹීම් ශුන්ය ප්රතිදානයක් නිපදවයි, ControlNet මගින් සිදුවන ඕනෑම විකෘතියක් වළක්වයි. කිසිදු ස්ථරයක් මුල සිට පුහුණු කර නැත; ක්රියාවලිය තවමත් සියුම්ව සකස් වෙමින් පවතින අතර මුල් ආකෘතිය සුරක්ෂිතව තබා ගනී. මෙම ක්රමය මඟින් කුඩා පරිමාණයේ හෝ පුද්ගලික උපාංගවල පවා පුහුණුව ලබා දේ.
ස්ථායී විසරණය ජනනය කරන ලද රූප සඳහා කිසිදු අයිතියක් ඉල්ලා සිටින අතර, රූප අන්තර්ගතය නීති විරෝධී හෝ පුද්ගලයන්ට හානිදායක නොවන බව සපයා ඇති ආකෘතියෙන් ඕනෑම ජනනය කරන ලද රූපයක් භාවිතා කිරීමේ අයිතිය පරිශීලකයින්ට නිදහසේ ලබා දෙයි. ස්ථායී විසරණය සහ අනෙකුත් උත්පාදක ආකෘති හිමිකරුගේ අනුමැතියකින් තොරව ප්රකාශන හිමිකම් සහිත රූපවලින් පුහුණු කර ඇති බැවින්, රූප භාවිතය සම්බන්ධයෙන් පරිශීලකයින්ට ලබා දී ඇති නිදහස හිමිකාරිත්වයේ ආචාර ධර්ම පිළිබඳ මතභේදයට තුඩු දී ඇත. [39]
දෘශ්ය ශෛලීන් සහ සංයුතීන් ප්රකාශන හිමිකමට යටත් නොවන බැවින්, කලා කෘතිවල රූප ජනනය කරන ස්ථායී විසරණය භාවිතා කරන්නන් දෘශ්යමය වශයෙන් සමාන කෘතිවල ප්රකාශන හිමිකම උල්ලංඝනය කිරීමක් ලෙස නොසැලකිය යුතු බව බොහෝ විට අර්ථකථනය කෙරේ. [40] කෙසේ වෙතත්, ජනනය කරන ලද රූපවල නිරූපිත පුද්ගලයන් ඔවුන්ගේ සමානත්වය භාවිතා කරන්නේ නම් පුද්ගල අයිතිවාසිකම් මගින් ආරක්ෂා විය හැක, [40] සහ හඳුනාගත හැකි සන්නාම ලාංඡන වැනි බුද්ධිමය දේපල තවමත් ප්රකාශන හිමිකම මගින් ආරක්ෂා කර ඇත. එසේ වුවද, ස්ථායී විසරණය වැනි රූප සංස්ලේෂණ මෘදුකාංගවල පුලුල් භාවිතය අවසානයේ මානව කලාකරුවන්, ඡායාරූප ශිල්පීන්, නිරූපිකාවන්, සිනමාකරුවන් සහ නළුවන් සමඟින්, AI මත පදනම් වූ තරඟකරුවන්ට එරෙහිව වාණිජ ශක්යතාව ක්රමයෙන් අහිමි වීමට හේතු විය හැකි බවට දෘශ්ය කලාකරුවන් කනස්සල්ල පළ කර ඇත.
උත්පාදක AI මත පදනම් වූ අනෙකුත් වාණිජ නිෂ්පාදන හා සැසඳීමේ දී, ප්රචණ්ඩකාරී හෝ ලිංගික ප්රකාශිත නිරූපණ වැනි, පරිශීලකයන් උත්පාදනය කළ හැකි අන්තර්ගත වර්ගවල ස්ථායී විසරණය සැලකිය යුතු ලෙස වැඩි අවසරයකි. [41] මෙම ආකෘතිය අපවාදාත්මක අරමුණු සඳහා භාවිතා කළ හැකි බවට වන උත්සුකයන් ආමන්ත්රණය කරමින්, Stability AI හි ප්රධාන විධායක නිලධාරී Emad Mostaque තර්ක කරන්නේ, "මෙම තාක්ෂණය ක්රියාත්මක කරන ආකාරය සම්බන්ධයෙන් ඔවුන් සදාචාරාත්මක, සදාචාරාත්මක සහ නීත්යානුකූලද යන්න පිළිබඳව [එය] ජනතාවගේ වගකීමකි", සහ ස්ථායී විසරණයේ හැකියාවන් මහජනතාව අතට පත්කිරීමෙන් විභව සෘණාත්මක ප්රතිවිපාක තිබියදීත්, තාක්ෂණයෙන් ශුද්ධ ප්රතිලාභයක් ලබා දෙනු ඇත. මීට අමතරව, මොස්ටැක් තර්ක කරන්නේ ස්ථායී විසරණය විවෘතව තිබීම පිටුපස ඇති අභිප්රාය වන්නේ රූප සංස්ලේෂණය සඳහා සංවෘත AI පද්ධති පමණක් සංවර්ධනය කර ඇති එවැනි තාක්ෂණයන් මත ආයතනික පාලනය සහ ආධිපත්යය අවසන් කිරීමයි. [41] ප්රභව කේතයේ ඇති හැකියාව හේතුවෙන් පරිශීලකයින් විසින් ජනනය කළ හැකි අන්තර්ගතයන් මත ස්ථායීතා AI විසින් පනවා ඇති ඕනෑම සීමාවන් පහසුවෙන් මඟ හැරිය හැකි බව මෙය පිළිබිඹු කරයි. [39]
2023 ජනවාරි මාසයේදී, කලාකරුවන් තිදෙනෙක්: Sarah Andersen, Kelly McKernan සහ Karla Ortiz, Stability AI, Midjourney සහ DeviantArt ට එරෙහිව ප්රකාශන හිමිකම් උල්ලංඝනය කිරීමේ නඩුවක් ගොනු කළ අතර, මෙම සමාගම් බිලියන පහක AI මෙවලම් පුහුණු කිරීමෙන් මිලියන ගණනක කලාකරුවන්ගේ අයිතිවාසිකම් උල්ලංඝනය කර ඇති බව පවසමින්. මුල් කලාකරුවන්ගේ අවසරයකින් තොරව වෙබයෙන් ඉවත් කරන ලද පින්තූර. [42] එම මාසයේම, Stability AI හට Getty Images විසින් එහි රූප පුහුණු දත්ත සඳහා භාවිතා කිරීම සම්බන්ධයෙන් ද නඩු පවරන ලදී. [10]
DALL-E වැනි මාදිලි මෙන් නොව, ස්ථායී විසරණය එහි ප්රභව කේතය ලබා ගත හැකි කරයි, [43] [7] ආකෘතිය සමඟ (පෙර පුහුණු කළ බර). එය Responsible AI බලපත්රයේ (RAIL) ආකාරයක් වන Creative ML OpenRAIL-M බලපත්රය ආකෘතියට (M) අදාළ වේ. [44] බලපත්රය අපරාධ, අපහාස, හිරිහැර, ඩොක්සිං, "සූරාකෑම ... බාලවයස්කරුවන්", වෛද්ය උපදෙස් ලබා දීම, ස්වයංක්රීයව නීතිමය බැඳීම් ඇති කිරීම, නීතිමය සාක්ෂි ඉදිරිපත් කිරීම සහ "පුද්ගලයන් හෝ කණ්ඩායම් මත පදනම්ව වෙනස් කොට සැලකීම හෝ හානි කිරීම ඇතුළු ඇතැම් භාවිත සිද්ධීන් තහනම් කරයි. . සමාජ හැසිරීම් හෝ ... පුද්ගලික හෝ පෞරුෂ ලක්ෂණ ... [හෝ] නීත්යානුකූලව ආරක්ෂිත ලක්ෂණ හෝ වර්ග ". [45] [46] පරිශීලකයාට ඔවුන්ගේ ජනනය කරන ලද නිමැවුම් රූප සඳහා හිමිකම් ඇති අතර ඒවා වාණිජමය වශයෙන් භාවිතා කිරීමට නිදහස ඇත. [47]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.