Nov model besedila v sliko, ki ga morate poznati: DeepFloyd IF – TechCult
Miscellanea / / May 06, 2023
če Adobe in DALL-E še ni otežil grafičnih oblikovalcev, v mestu je nov AI. Novi model besedila v sliko, ki ga morate poznati, je DeepFloyd IF. Spoznajte DeepFloyd IF, najnovejši model besedila v sliko, ki ga je izdala raziskovalna skupina DeepFloyd ob podpori Stabilnost AI. Zagotovo bo še bolj pretresel stvari za AI, ki ustvarja slike.
DeepFloyd, raziskovalna skupina, ki jo podpira Stability AI, je napovedala izdajo svojega novega modela besedila v sliko, DeepFloyd IF. Ta model uporablja zmogljivo metodo kaskadne difuzije slikovnih pik za ustvarjanje slik iz besedilnih pozivov. DeepFloyd IF s svojo nekomercialno, raziskovalno dovoljeno licenco ponuja edinstveno priložnost za raziskovalne laboratorije, da preučijo in eksperimentirajo z naprednimi pristopi generiranja besedila v sliko.
Model DeepFloyd IF vključuje inteligenco velikega jezikovnega modela T5-XXL-1.1, ki omogoča za precejšnjo količino slojev navzkrižne pozornosti med besedilom in sliko, kar zagotavlja boljše hitro in slikovno zavezništvo. Posledica tega je koherentno in jasno besedilo poleg predmetov različnih lastnosti, ki se pojavljajo v različnih prostorskih odnosih.
- DeepFloyd IF je model besedila v sliko, ki uporablja metodo kaskadne difuzije slikovnih pik za ustvarjanje slik iz besedilnih pozivov.
- Model vključuje inteligenco velikega jezikovnega modela T5-XXL-1.1, kar omogoča boljše hitro in slikovno zavezništvo.
- DeepFloyd IF ustvarja koherentno in jasno besedilo poleg objektov različnih lastnosti, ki se pojavljajo v različnih prostorskih odnosih.
- Model ima visoko stopnjo fotorealizma, kar se odraža v njegovem impresivnem rezultatu FID brez posnetka 6,66 na naboru podatkov COCO.
- DeepFloyd IF lahko ustvari slike z nestandardnimi razmerji stranic in omogoča brezhibno prevajanje slike v sliko.
- Model lahko ustvari sliko iz poziva, kot je "medvedek, oblečen v srajco, na kateri piše 'Deep Floyd'" — po želji v različnih slogih.
- DeepFloyd IF večkrat izvede difuzijo, ustvari sliko 64x64px in jo nato poveča na 256x256px in končno na 1024x1024px.
- DeepFloyd IF uporablja velik jezikovni model za razumevanje in predstavitev pozivov kot vektorja, zaradi česar je še posebej dober pri razumevanju kompleksnih pozivov in prostorskih odnosov, opisanih v pozivih.
- Model je na voljo v odprti kodi in licenciran na način, ki prepoveduje komercialno uporabo.
Ena od ključnih razlik med DeepFloyd IF in drugimi modeli, kot sta Stable Diffusion in DALL-E 2, je, da DeepFloyd IF uporablja velik jezikovni model razumeti in predstaviti pozive kot vektor. Zaradi velikosti velikega jezikovnega modela, vdelanega v arhitekturo DeepFloyd IF, je model še posebej dobro razume zapletene pozive in celo prostorske odnose, opisane v pozive.
DeepFloyd IF je zaenkrat na voljo v odprti kodi in licenciran na način, ki prepoveduje komercialno uporabo. Omejitev je bila verjetno motivirana s trenutnim šibkim pravnim statusom generativnih umetniških modelov umetne inteligence. Dokler ni na voljo za komercialno uporabo, lahko DeepFloyd IF uporabljate tako:
1. Obiščite DeepFloyd IF demo stran.
2. Vnesite poziv, za katerega želite sliko.
3. Kliknite na Ustvari.
To bo ustvarilo sliko za vas. Upoštevajte, da je to predstavitev in morda ni primerljiva s tem, česar je DeepFloyd popolnoma sposoben.
Z DeepFloyd IF sta Stability AI in DeepFloyd ustvarila močan in obetaven nov model besedila v sliko. Z vključitvijo inteligence modela T5 in uporabo metode kaskadne difuzije slikovnih pik model ustvari fotorealistične slike z visoko stopnjo natančnosti. Ker se generativna umetna inteligenca še naprej razvija, je jasno, da bodo modeli, kot je DeepFloyd IF, igrali vse pomembnejšo vlogo na tem področju.
Vir: Blog stabilnosti AI
Alex Craig
Alexa žene strast do tehnologije in igralnih vsebin. Ne glede na to, ali gre za igranje najnovejših video iger, spremljanje najnovejših tehnoloških novic ali sodelovanje z drugimi podobno mislečimi posamezniki na spletu je Alexova ljubezen do tehnologije in iger očitna v vsem, kar on počne.
Alexa žene strast do tehnologije in igralnih vsebin. Ne glede na to, ali gre za igranje najnovejših video iger, spremljanje najnovejših tehnoloških novic ali sodelovanje z drugimi podobno mislečimi posamezniki na spletu je Alexova ljubezen do tehnologije in iger očitna v vsem, kar on počne.