Noul model text-to-imagine despre care trebuie să știți: DeepFloyd IF – TechCult
Miscellanea / / May 06, 2023
Dacă Chirpici și DALL-E nu le făcuse deja dificilă pentru designeri grafici, există o nouă IA în oraș. Noul model text-to-image despre care trebuie să știți este DeepFloyd IF. Faceți cunoștință cu DeepFloyd IF, cel mai recent model text-to-image lansat de grupul de cercetare DeepFloyd, susținut de Stabilitate AI. Cu siguranță va schimba lucrurile și mai mult pentru AI generatoare de imagini.
![Noul model text-to-image pe care trebuie să-l știți despre DeepFloyd IF](/f/7a0cf07ab02592c4f8428fb4308e5b78.png)
DeepFloyd, un grup de cercetare susținut de Stability AI, a anunțat lansarea noului lor model text-to-image, DeepFloyd IF. Acest model folosește o metodă puternică de difuzare a pixelilor în cascadă pentru a genera imagini din instrucțiuni textuale. Cu licența sa necomercială, permisă pentru cercetare, DeepFloyd IF oferă o oportunitate unică pentru laboratoarele de cercetare de a examina și experimenta abordări avansate de generare a textului în imagine.
Modelul DeepFloyd IF încorporează inteligența modelului de limbaj mare T5-XXL-1.1, care permite pentru o cantitate semnificativă de straturi de atenție încrucișată text-imagine, oferind o mai bună alianță de prompt și imagine. Acest lucru are ca rezultat text coerent și clar alături de obiecte cu proprietăți diferite care apar în diferite relații spațiale.
- DeepFloyd IF este un model text-to-image care utilizează o metodă de difuzie a pixelilor în cascadă pentru a genera imagini din instrucțiuni textuale.
- Modelul încorporează inteligența modelului de limbă mare T5-XXL-1.1, permițând o mai bună alianță de promptitudine și imagine.
- DeepFloyd IF generează text coerent și clar alături de obiecte cu proprietăți diferite care apar în diferite relații spațiale.
- Modelul are un grad ridicat de fotorealism, reflectat în scorul său impresionant FID zero-shot de 6,66 pe setul de date COCO.
- DeepFloyd IF poate genera imagini cu rapoarte de aspect non-standard și permite traduceri zero-shot imagine-la-imagine.
- Modelul poate crea o imagine dintr-un mesaj precum „un ursuleț purtând o cămașă pe care scrie „Deep Floyd” – opțional într-o gamă de stiluri.
- DeepFloyd IF efectuează difuzie de mai multe ori, generând o imagine de 64x64px și apoi mărind-o la 256x256px și în final la 1024x1024px.
- DeepFloyd IF folosește un model de limbaj mare pentru a înțelege și a reprezenta prompturile ca un vector, ceea ce îl face deosebit de bun la înțelegerea prompturilor complexe și a relațiilor spațiale descrise în prompturi.
- Modelul este disponibil în sursă deschisă și licențiat într-un mod care interzice utilizarea comercială.
Una dintre diferențele cheie dintre DeepFloyd IF și alte modele, cum ar fi Stable Diffusion și DALL-E 2 este că DeepFloyd IF utilizează un model de limbaj mare să înțeleagă și să reprezinte prompturile ca un vector. Datorită dimensiunii modelului de limbaj mare încorporat în arhitectura DeepFloyd IF, modelul este deosebit de bun la înțelegerea solicitărilor complexe și chiar a relațiilor spațiale descrise în solicitări.
DeepFloyd IF este disponibil în sursă deschisă și licențiat într-un mod care interzice utilizarea comercială, deocamdată. Restricția a fost probabil motivată de statutul juridic actual slab al modelelor de artă generativă AI. Până când devine disponibil pentru uz comercial, acesta este modul în care puteți utiliza DeepFloyd IF:
1. Viziteaza Pagina demonstrativă DeepFloyd IF.
![Vizitați pagina demonstrativă DeepFloyd IF | Noul model text-to-image despre care trebuie să știți: DeepFloyd IF](/f/5f1251d9cc641916615182da3ee404ff.png)
2. Introduceți solicitarea pentru care doriți o imagine.
3. Click pe Genera.
![Faceți clic pe Generare | Noul model text-to-image despre care trebuie să știți: DeepFloyd IF](/f/49a7b558b993250f2ae47a243b1d3c47.png)
Aceasta va genera o imagine pentru dvs. Rețineți că acesta este un demo și ar putea să nu fie la egalitate cu ceea ce este capabil DeepFloyd.
Cu DeepFloyd IF, Stability AI și DeepFloyd au creat un nou model puternic și promițător de text-to-image. Prin încorporarea inteligenței modelului T5 și folosind o metodă de difuzie a pixelilor în cascadă, modelul generează imagini fotorealiste cu un grad ridicat de acuratețe. Pe măsură ce IA generativă continuă să evolueze, este clar că modele precum DeepFloyd IF vor juca un rol din ce în ce mai important în domeniu.
Sursă: Blogul lui Stability AI
![Alex Craig](/f/82c0af5dbedfba7e1fc95a8d7136c74d.jpg)
Alex Craig
Alex este condus de o pasiune pentru tehnologie și conținut de jocuri. Fie că este jucat la cele mai recente jocuri video, ținând pasul cu cele mai recente știri despre tehnologie sau antrenând cu alți indivizi care au aceleași idei online, dragostea lui Alex pentru tehnologie și jocuri este evidentă în tot ceea ce el face.
Alex este condus de o pasiune pentru tehnologie și conținut de jocuri. Fie că este jucat la cele mai recente jocuri video, ținând pasul cu cele mai recente știri despre tehnologie sau antrenând cu alți indivizi care au aceleași idei online, dragostea lui Alex pentru tehnologie și jocuri este evidentă în tot ceea ce el face.