Az új szöveg-képmodell, amelyet tudnia kell: DeepFloyd IF – TechCult
Vegyes Cikkek / / May 06, 2023
Ha Vályogtégla és a DALL-E már nem tette nehézzé a grafikusok dolgát, van egy új mesterséges intelligencia a városban. Az új szöveg-kép modell, amelyről tudnia kell, a DeepFloyd IF. Ismerje meg a DeepFloyd IF-et, a legújabb szöveg-kép modellt, amelyet a DeepFloyd kutatócsoport adott ki. Stabilitás AI. Ez minden bizonnyal még jobban felrázza a dolgokat a képgeneráló mesterséges intelligencia számára.
DeepFloyd, a Stability AI által támogatott kutatócsoport bejelentette új szöveg-képes modelljének, a DeepFloyd IF-nek a megjelenését. Ez a modell erőteljes lépcsőzetes pixeldiffúziós módszert használ a képek szöveges promptokból történő előállításához. Nem kereskedelmi célú, kutatásra engedélyezett licencével a DeepFloyd IF egyedülálló lehetőséget biztosít a kutatólaboratóriumok számára, hogy megvizsgálják és kísérletezzenek a fejlett szöveg-képgenerálási megközelítésekkel.
A DeepFloyd IF modell magában foglalja a T5-XXL-1.1 nagynyelvi modell intelligenciáját, amely lehetővé teszi jelentős mennyiségű szöveg-kép keresztfigyelem réteghez, jobb prompt és kép szövetséget biztosítva. Ez koherens és tiszta szöveget eredményez a különböző tulajdonságú objektumok mellett, amelyek különböző térviszonyokban jelennek meg.
- A DeepFloyd IF egy szöveg-kép modell, amely lépcsőzetes pixel diffúziós módszert használ a képek szöveges promptokból történő előállításához.
- A modell magában foglalja a T5-XXL-1.1 nagynyelvi modell intelligenciáját, ami jobb prompt és képszövetséget tesz lehetővé.
- A DeepFloyd IF koherens és tiszta szöveget generál különböző térbeli relációkban megjelenő, különböző tulajdonságú objektumok mellett.
- A modell magas fokú fotorealizmussal rendelkezik, amit a COCO adatkészleten elért lenyűgöző, nulla lövés FID-pontszáma, 6,66 tükröz.
- A DeepFloyd IF nem szabványos képarányú képeket képes generálni, és lehetővé teszi a nulla felvétel nélküli kép-kép fordítást.
- A modell képes létrehozni egy képet olyan felszólításból, mint például „Deep Floyd” feliratú inget viselő mackó – opcionálisan többféle stílusban.
- A DeepFloyd IF többször is diffúziót hajt végre, 64x64px-es képet generál, majd felskálázza 256x256px-re, végül 1024x1024px-re.
- A DeepFloyd IF nagy nyelvi modellt használ a promptok vektorként történő megértésére és megjelenítésére, így különösen jó az összetett promptok és a promptokban leírt térbeli kapcsolatok megértésében.
- A modell nyílt forráskódú, és a kereskedelmi felhasználást tiltó módon engedélyezett.
Az egyik legfontosabb különbség a DeepFloyd IF és más modellek, például a Stable Diffusion és a DALL-E 2 között az, hogy a DeepFloyd IF nagy nyelvi modell hogy megértsük és vektorként ábrázoljuk a promptokat. A DeepFloyd IF architektúrájába ágyazott nagy nyelvi modell mérete miatt a modell az különösen jól érti a bonyolult felszólításokat, sőt a térbeli kapcsolatokat is felszólítja.
A DeepFloyd IF nyílt forráskódú, és a kereskedelmi felhasználást egyelőre tiltó licenccel rendelkezik. A korlátozást valószínűleg a generatív AI művészeti modellek jelenlegi gyenge jogi státusza motiválta. Amíg kereskedelmi használatra elérhetővé nem válik, a következőképpen használhatja a DeepFloyd IF-et:
1. Meglátogatni a DeepFloyd IF bemutató oldal.
2. Írja be a parancssort, amelyhez képet szeretne.
3. Kattintson generál.
Ez létrehoz egy képet az Ön számára. Ne feledje, hogy ez egy demó, és nem biztos, hogy egyenrangú azzal, amire a DeepFloyd teljesen képes.
A DeepFloyd IF segítségével a Stability AI és a DeepFloyd egy erőteljes és ígéretes új szöveg-kép modellt hozott létre. A T5 modell intelligenciájának beépítésével és a kaszkádos pixel diffúziós módszerrel a modell nagy pontosságú fotorealisztikus képeket generál. Ahogy a generatív AI folyamatosan fejlődik, egyértelmű, hogy az olyan modellek, mint a DeepFloyd IF, egyre fontosabb szerepet fognak játszani a területen.
Forrás: A Stabilitás AI blogja
Alex Craig
Alexet a technológia és a játéktartalom iránti szenvedély hajtja. Legyen szó a legújabb videojátékokkal való játékról, a legfrissebb technológiai hírekről való lépésről vagy a lebilincselésről más, hasonló gondolkodású online személyekkel Alexnek a technológia és a játékok iránti szeretete nyilvánvaló mindabban, amit csinál.
Alexet a technológia és a játéktartalom iránti szenvedély hajtja. Legyen szó a legújabb videojátékokkal való játékról, a legfrissebb technológiai hírekről való lépésről vagy a lebilincselésről más, hasonló gondolkodású online személyekkel Alexnek a technológia és a játékok iránti szeretete nyilvánvaló mindabban, amit csinál.