Het nieuwe tekst-naar-beeld-model dat u moet kennen: DeepFloyd IF – TechCult
Diversen / / May 06, 2023
Als Adobe en DALL-E had het grafisch ontwerpers al niet moeilijk gemaakt, er is een nieuwe AI in de stad. Het nieuwe tekst-naar-beeld-model dat u moet kennen, is DeepFloyd IF. Maak kennis met DeepFloyd IF, het nieuwste tekst-naar-beeld-model uitgebracht door onderzoeksgroep DeepFloyd, ondersteund door Stabiliteit AI. Het zal de zaken zeker nog verder opschudden voor beeldgenererende AI.
DeepFloyd, een onderzoeksgroep ondersteund door Stability AI, heeft de release aangekondigd van hun nieuwe tekst-naar-beeld-model, DeepFloyd IF. Dit model maakt gebruik van een krachtige cascade-pixeldiffusiemethode om afbeeldingen te genereren op basis van tekstuele prompts. Met zijn niet-commerciële, voor onderzoek toegestane licentie biedt DeepFloyd IF een unieke kans voor onderzoekslaboratoria om geavanceerde benaderingen voor het genereren van tekst naar afbeelding te onderzoeken en ermee te experimenteren.
Het DeepFloyd IF-model bevat de intelligentie van het grote taalmodel T5-XXL-1.1, waardoor voor een aanzienlijk aantal tekst-beeld kruis-aandachtslagen, wat zorgt voor een betere prompt en beeldalliantie. Dit resulteert in samenhangende en duidelijke tekst naast objecten met verschillende eigenschappen die in verschillende ruimtelijke relaties verschijnen.
- DeepFloyd IF is een tekst-naar-beeld-model dat een trapsgewijze pixeldiffusiemethode gebruikt om afbeeldingen te genereren op basis van tekstuele prompts.
- Het model bevat de intelligentie van het grote taalmodel T5-XXL-1.1, waardoor een betere prompt- en beeldalliantie mogelijk is.
- DeepFloyd IF genereert coherente en duidelijke tekst naast objecten met verschillende eigenschappen die in verschillende ruimtelijke relaties verschijnen.
- Het model heeft een hoge mate van fotorealisme, wat tot uiting komt in de indrukwekkende zero-shot FID-score van 6,66 op de COCO-dataset.
- DeepFloyd IF kan afbeeldingen genereren met niet-standaard beeldverhoudingen en maakt zero-shot beeld-naar-beeld vertalingen mogelijk.
- Het model kan een afbeelding maken op basis van een prompt, zoals "een teddybeer die een shirt draagt met de tekst 'Deep Floyd'" - optioneel in verschillende stijlen.
- DeepFloyd IF voert meerdere keren diffusie uit, genereert een afbeelding van 64x64px en schaalt deze vervolgens op naar 256x256px en uiteindelijk naar 1024x1024px.
- DeepFloyd IF gebruikt een groot taalmodel om prompts te begrijpen en weer te geven als een vector, waardoor het bijzonder goed is in het begrijpen van complexe prompts en ruimtelijke relaties die in prompts worden beschreven.
- Het model is beschikbaar in open source en gelicentieerd op een manier die commercieel gebruik verbiedt.
Een van de belangrijkste verschillen tussen DeepFloyd IF en andere modellen zoals Stable Diffusion en DALL-E 2 is dat DeepFloyd IF een groot taalmodel om prompts als een vector te begrijpen en weer te geven. Vanwege de omvang van het grote taalmodel dat is ingebed in de architectuur van DeepFloyd IF, is het model dat wel bijzonder goed in het begrijpen van complexe aanwijzingen en zelfs ruimtelijke relaties beschreven in aanwijzingen.
DeepFloyd IF is beschikbaar in open source en gelicentieerd op een manier die commercieel gebruik voorlopig verbiedt. De beperking was waarschijnlijk ingegeven door de huidige zwakke juridische status van generatieve AI-kunstmodellen. Totdat het beschikbaar komt voor commercieel gebruik, kunt u DeepFloyd IF als volgt gebruiken:
1. Bezoek de DeepFloyd IF-demopagina.
2. Typ de prompt waarvoor u een afbeelding wilt.
3. Klik op Genereer.
Dit genereert een afbeelding voor u. Houd er rekening mee dat dit een demo is en mogelijk niet vergelijkbaar is met waar DeepFloyd volledig toe in staat is.
Met DeepFloyd IF hebben Stability AI en DeepFloyd een krachtig en veelbelovend nieuw tekst-naar-beeld-model gecreëerd. Door de intelligentie van het T5-model te integreren en een gecascadeerde pixeldiffusiemethode te gebruiken, genereert het model fotorealistische beelden met een hoge mate van nauwkeurigheid. Naarmate generatieve AI blijft evolueren, is het duidelijk dat modellen zoals DeepFloyd IF een steeds belangrijkere rol in het veld zullen spelen.
Bron: Blog van stabiliteits-AI
Alex Craig
Alex wordt gedreven door een passie voor technologie en gamingcontent. Of het nu is door de nieuwste videogames te spelen, op de hoogte te blijven van het laatste technische nieuws of boeiend te zijn met andere gelijkgestemde individuen online, komt Alex' liefde voor technologie en gaming duidelijk naar voren in alles wat hij doet doet.
Alex wordt gedreven door een passie voor technologie en gamingcontent. Of het nu is door de nieuwste videogames te spelen, op de hoogte te blijven van het laatste technische nieuws of boeiend te zijn met andere gelijkgestemde individuen online, komt Alex' liefde voor technologie en gaming duidelijk naar voren in alles wat hij doet doet.