Nový model prevodu textu na obrázok, o ktorom potrebujete vedieť: DeepFloyd IF – TechCult
Rôzne / / May 06, 2023
Ak Adobe a DALL-E to už grafickým dizajnérom nesťažilo, v meste je nová AI. Nový model prevodu textu na obrázok, o ktorom potrebujete vedieť, je DeepFloyd IF. Zoznámte sa s DeepFloyd IF, najnovším modelom prevodu textu na obrázok vydaným výskumnou skupinou DeepFloyd, za ktorou stojí Stabilita AI. Určite to ešte viac otrasie v oblasti umelej inteligencie generujúcej obrázky.
DeepFloyd, výskumná skupina podporovaná Stability AI, oznámila vydanie svojho nového modelu prevodu textu na obrázok, DeepFloyd IF. Tento model využíva výkonnú metódu kaskádovej difúzie pixelov na generovanie obrázkov z textových výziev. Vďaka svojej nekomerčnej licencii povolenej pre výskum poskytuje DeepFloyd IF jedinečnú príležitosť výskumným laboratóriám skúmať a experimentovať s pokročilými prístupmi generovania textu na obrázok.
Model DeepFloyd IF zahŕňa inteligenciu veľkého jazykového modelu T5-XXL-1.1, ktorý umožňuje pre značné množstvo vrstiev krížovej pozornosti medzi textom a obrázkom, čo poskytuje lepšiu promptnú a obrazovú alianciu. Výsledkom je koherentný a jasný text popri objektoch rôznych vlastností, ktoré sa objavujú v rôznych priestorových vzťahoch.
- DeepFloyd IF je model prevodu textu na obrázok, ktorý využíva metódu kaskádovej difúzie pixelov na generovanie obrázkov z textových výziev.
- Model využíva inteligenciu veľkého jazykového modelu T5-XXL-1.1, čo umožňuje lepšie rýchle a obrazové spojenie.
- DeepFloyd IF generuje koherentný a jasný text popri objektoch rôznych vlastností, ktoré sa objavujú v rôznych priestorových vzťahoch.
- Model má vysoký stupeň fotorealizmu, čo sa odráža v jeho pôsobivom skóre FID pri nulovom zábere 6,66 v súbore údajov COCO.
- DeepFloyd IF dokáže generovať obrázky s neštandardnými pomermi strán a umožňuje preklady medzi jednotlivými snímkami s nulovým záberom.
- Model môže vytvoriť obrázok z výzvy, ako je „plyšový medvedík v košeli s nápisom „Deep Floyd“ – voliteľne v rôznych štýloch.
- DeepFloyd IF niekoľkokrát vykoná difúziu, vygeneruje obrázok s rozmermi 64 x 64 pixelov a potom ho zväčší na 256 x 256 pixelov a nakoniec na 1 024 x 1 024 pixelov.
- DeepFloyd IF používa rozsiahly jazykový model na pochopenie a reprezentáciu výziev ako vektora, vďaka čomu je obzvlášť dobrá na pochopenie zložitých výziev a priestorových vzťahov opísaných vo výzve.
- Model je dostupný v open source a je licencovaný spôsobom, ktorý zakazuje komerčné použitie.
Jedným z kľúčových rozdielov medzi DeepFloyd IF a inými modelmi, ako sú Stable Diffusion a DALL-E 2, je to, že DeepFloyd IF používa veľký jazykový model pochopiť a reprezentovať výzvy ako vektor. Vzhľadom na veľkosť veľkého jazykového modelu zabudovaného do architektúry DeepFloyd IF je model obzvlášť dobre rozumie zložitým výzvam a dokonca priestorovým vzťahom opísaným v výzvy.
DeepFloyd IF je zatiaľ dostupný ako open source a licencovaný spôsobom, ktorý zakazuje komerčné použitie. Obmedzenie bolo pravdepodobne motivované súčasným slabým právnym postavením generatívnych umeleckých modelov AI. Kým nebude dostupný na komerčné použitie, DeepFloyd IF môžete používať takto:
1. Navštíviť Demo stránka DeepFloyd IF.
2. Zadajte výzvu, pre ktorú chcete obrázok.
3. Kliknite na Generovať.
To vám vygeneruje obrázok. Majte na pamäti, že toto je demo a nemusí byť na rovnakej úrovni ako DeepFloyd.
S DeepFloyd IF, Stability AI a DeepFloyd vytvorili výkonný a sľubný nový model prevodu textu na obrázok. Začlenením inteligencie modelu T5 a použitím metódy kaskádovej difúzie pixelov model generuje fotorealistické obrázky s vysokým stupňom presnosti. Ako sa generatívna AI neustále vyvíja, je jasné, že modely ako DeepFloyd IF budú v tejto oblasti hrať čoraz dôležitejšiu úlohu.
Zdroj: Blog Stability AI
Alex Craig
Alex je poháňaný vášňou pre technológie a herný obsah. Či už ide o hranie najnovších videohier, sledovanie najnovších technologických noviniek alebo o zaujatie Alexova láska k technológiám a hrám je evidentná vo všetkom, čo on robí.
Alex je poháňaný vášňou pre technológie a herný obsah. Či už ide o hranie najnovších videohier, sledovanie najnovších technologických noviniek alebo o zaujatie Alexova láska k technológiám a hrám je evidentná vo všetkom, čo on robí.