Le nouveau modèle Text-to-Image que vous devez connaître: DeepFloyd IF – TechCult

Divers / by admin / May 06, 2023

click fraud protection

Si Adobe et DALL-E n'avait déjà pas rendu la tâche difficile aux graphistes, il y a une nouvelle IA en ville. Le nouveau modèle texte-image que vous devez connaître est DeepFloyd IF. Découvrez DeepFloyd IF, le dernier modèle de synthèse texte-image publié par le groupe de recherche DeepFloyd, soutenu par IA de stabilité. Il est sûr de secouer encore plus les choses pour l'IA générative d'images.

Le nouveau modèle Text-to-Image que vous devez connaître à propos de DeepFloyd IF

DeepFloyd, un groupe de recherche soutenu par Stability AI, a annoncé la sortie de son nouveau modèle texte-image, DeepFloyd IF. Ce modèle utilise une puissante méthode de diffusion de pixels en cascade pour générer des images à partir d'invites textuelles. Avec sa licence non commerciale et autorisée pour la recherche, DeepFloyd IF offre une opportunité unique aux laboratoires de recherche d'examiner et d'expérimenter des approches avancées de génération de texte en image.

Le modèle DeepFloyd IF intègre l'intelligence du grand modèle de langage T5-XXL-1.1, qui permet pour une quantité importante de couches d'attention croisée texte-image, offrant une meilleure alliance entre l'invite et l'image. Il en résulte un texte cohérent et clair aux côtés d'objets de propriétés différentes apparaissant dans diverses relations spatiales.

DeepFloyd IF est un modèle texte-image qui utilise une méthode de diffusion de pixels en cascade pour générer des images à partir d'invites textuelles.
Le modèle intègre l'intelligence du grand modèle de langage T5-XXL-1.1, permettant une meilleure alliance entre l'invite et l'image.
DeepFloyd IF génère un texte cohérent et clair aux côtés d'objets de propriétés différentes apparaissant dans diverses relations spatiales.
Le modèle a un degré élevé de photoréalisme, reflété dans son impressionnant score FID zéro coup de 6,66 sur l'ensemble de données COCO.
DeepFloyd IF peut générer des images avec des rapports d'aspect non standard et permet des traductions d'image à image sans prise de vue.
Le modèle peut créer une image à partir d'une invite telle que "un ours en peluche portant une chemise qui lit" Deep Floyd "" - éventuellement dans une gamme de styles.
DeepFloyd IF effectue la diffusion plusieurs fois, générant une image 64x64px puis la mettant à l'échelle à 256x256px et enfin à 1024x1024px.
DeepFloyd IF utilise un grand modèle de langage pour comprendre et représenter les invites sous forme de vecteur, ce qui le rend particulièrement efficace pour comprendre les invites complexes et les relations spatiales décrites dans les invites.
Le modèle est disponible en open source et sous licence d'une manière qui interdit l'utilisation commerciale.

L'une des principales différences entre DeepFloyd IF et d'autres modèles tels que Stable Diffusion et DALL-E 2 est que DeepFloyd IF utilise un grand modèle de langage pour comprendre et représenter les invites sous forme de vecteur. En raison de la taille du grand modèle de langage intégré dans l'architecture de DeepFloyd IF, le modèle est particulièrement doué pour comprendre les invites complexes et même les relations spatiales décrites dans instructions.

DeepFloyd IF est disponible en open source et sous licence d'une manière qui interdit l'utilisation commerciale, pour l'instant. La restriction était probablement motivée par le statut juridique précaire actuel des modèles d'art de l'IA générative. En attendant qu'il soit disponible pour un usage commercial, voici comment vous pouvez utiliser DeepFloyd IF :

1. Visiter le Page de démonstration DeepFloyd IF.

Visitez la page de démonstration DeepFloyd IF | Nouveau modèle Text-to-Image que vous devez connaître: DeepFloyd IF

2. Tapez l'invite pour laquelle vous voulez une image.

3. Cliquer sur Générer.

Cliquez sur Générer | Nouveau modèle Text-to-Image que vous devez connaître: DeepFloyd IF

Cela va générer une image pour vous. Gardez à l'esprit qu'il s'agit d'une démo et qu'elle n'est peut-être pas à la hauteur de ce dont DeepFloyd est tout à fait capable.

Avec DeepFloyd IF, Stability AI et DeepFloyd ont créé un nouveau modèle texte-image puissant et prometteur. En incorporant l'intelligence du modèle T5 et en utilisant une méthode de diffusion de pixels en cascade, le modèle génère des images photoréalistes avec un haut degré de précision. Alors que l'IA générative continue d'évoluer, il est clair que des modèles comme DeepFloyd IF joueront un rôle de plus en plus important sur le terrain.

Source: Blog de Stability AI

Alex Craig

Alex est animé par une passion pour la technologie et le contenu de jeu. Que ce soit en jouant aux derniers jeux vidéo, en se tenant au courant des dernières nouvelles technologiques ou en engageant avec d'autres personnes partageant les mêmes idées en ligne, l'amour d'Alex pour la technologie et les jeux est évident dans tout ce qu'il fait.

Nuage de balises

Divers

Notation

Vues

Commentaires