Το νέο μοντέλο κειμένου σε εικόνα για το οποίο πρέπει να γνωρίζετε: DeepFloyd IF – TechCult
Miscellanea / / May 06, 2023
Αν Πλίθα και το DALL-E δεν είχε ήδη δυσκολέψει τους γραφίστες, υπάρχει μια νέα τεχνητή νοημοσύνη στην πόλη. Το νέο μοντέλο κειμένου σε εικόνα που πρέπει να γνωρίζετε είναι το DeepFloyd IF. Γνωρίστε το DeepFloyd IF, το πιο πρόσφατο μοντέλο κειμένου σε εικόνα που κυκλοφόρησε από την ερευνητική ομάδα DeepFloyd, με την υποστήριξη Σταθερότητα AI. Είναι βέβαιο ότι θα ταρακουνήσει ακόμη περισσότερο τα πράγματα για την τεχνητή νοημοσύνη που δημιουργεί εικόνες.
DeepFloyd, μια ερευνητική ομάδα που υποστηρίζεται από το Stability AI, ανακοίνωσε την κυκλοφορία του νέου μοντέλου κειμένου σε εικόνα, DeepFloyd IF. Αυτό το μοντέλο χρησιμοποιεί μια ισχυρή μέθοδο διάχυσης με καταρράκτη εικονοστοιχείων για τη δημιουργία εικόνων από μηνύματα κειμένου. Με τη μη εμπορική, επιτρεπόμενη για έρευνα άδεια, το DeepFloyd IF παρέχει μια μοναδική ευκαιρία στα ερευνητικά εργαστήρια να εξετάσουν και να πειραματιστούν με προηγμένες προσεγγίσεις δημιουργίας κειμένου σε εικόνα.
Το μοντέλο DeepFloyd IF ενσωματώνει τη νοημοσύνη του μοντέλου μεγάλης γλώσσας T5-XXL-1.1, το οποίο επιτρέπει για σημαντικό αριθμό επιπέδων διασταυρούμενης προσοχής κειμένου-εικόνας, παρέχοντας καλύτερη συμμαχία προτροπής και εικόνας. Αυτό έχει ως αποτέλεσμα ένα συνεκτικό και σαφές κείμενο μαζί με αντικείμενα διαφορετικών ιδιοτήτων που εμφανίζονται σε διάφορες χωρικές σχέσεις.
- Το DeepFloyd IF είναι ένα μοντέλο κειμένου σε εικόνα που χρησιμοποιεί μια μέθοδο διαδοχικής διάχυσης pixel για τη δημιουργία εικόνων από μηνύματα κειμένου.
- Το μοντέλο ενσωματώνει τη νοημοσύνη του μοντέλου μεγάλης γλώσσας T5-XXL-1.1, επιτρέποντας καλύτερη συμμαχία άμεσης και εικόνας.
- Το DeepFloyd IF δημιουργεί συνεκτικό και σαφές κείμενο μαζί με αντικείμενα διαφορετικών ιδιοτήτων που εμφανίζονται σε διάφορες χωρικές σχέσεις.
- Το μοντέλο έχει υψηλό βαθμό φωτορεαλισμού, που αντικατοπτρίζεται στην εντυπωσιακή βαθμολογία FID μηδενικής λήψης 6,66 στο σύνολο δεδομένων COCO.
- Το DeepFloyd IF μπορεί να δημιουργήσει εικόνες με μη τυπικές αναλογίες διαστάσεων και επιτρέπει μεταφράσεις εικόνας σε εικόνα μηδενικής λήψης.
- Το μοντέλο μπορεί να δημιουργήσει μια εικόνα από μια προτροπή όπως «ένα αρκουδάκι που φορά ένα πουκάμισο που γράφει «Deep Floyd» — προαιρετικά σε μια σειρά από στυλ.
- Το DeepFloyd IF εκτελεί διάχυση αρκετές φορές, δημιουργώντας μια εικόνα 64x64px και στη συνέχεια αναβαθμίζοντάς την σε 256x256px και τελικά σε 1024x1024px.
- Το DeepFloyd IF χρησιμοποιεί ένα μεγάλο γλωσσικό μοντέλο για να κατανοεί και να αναπαριστά τις προτροπές ως διάνυσμα, καθιστώντας το ιδιαίτερα καλό στην κατανόηση πολύπλοκων προτροπών και χωρικών σχέσεων που περιγράφονται στα μηνύματα.
- Το μοντέλο είναι διαθέσιμο σε ανοιχτό κώδικα και έχει άδεια χρήσης με τρόπο που απαγορεύει την εμπορική χρήση.
Μία από τις βασικές διαφορές μεταξύ του DeepFloyd IF και άλλων μοντέλων όπως το Stable Diffusion και το DALL-E 2 είναι ότι το DeepFloyd IF χρησιμοποιεί ένα μεγάλο γλωσσικό μοντέλο να κατανοήσουν και να αναπαραστήσουν τις προτροπές ως διάνυσμα. Λόγω του μεγέθους του μοντέλου μεγάλης γλώσσας που είναι ενσωματωμένο στην αρχιτεκτονική του DeepFloyd IF, το μοντέλο είναι Ιδιαίτερα καλός στην κατανόηση πολύπλοκων προτροπών και ακόμη και χωρικών σχέσεων που περιγράφονται στο προτρέπει.
Το DeepFloyd IF είναι διαθέσιμο σε ανοιχτό κώδικα και διαθέτει άδεια χρήσης με τρόπο που απαγορεύει την εμπορική χρήση, προς το παρόν. Ο περιορισμός πιθανότατα υποκινήθηκε από το τρέχον αδύναμο νομικό καθεστώς των μοντέλων τέχνης τεχνητής νοημοσύνης. Μέχρι να γίνει διαθέσιμο για εμπορική χρήση, μπορείτε να χρησιμοποιήσετε το DeepFloyd IF:
1. Επισκέψου το Επίδειξη σελίδας DeepFloyd IF.
2. Πληκτρολογήστε το μήνυμα για το οποίο θέλετε μια εικόνα.
3. Κάντε κλικ στο Παράγω.
Αυτό θα δημιουργήσει μια εικόνα για εσάς. Λάβετε υπόψη ότι αυτό είναι ένα demo και μπορεί να μην είναι στο ίδιο επίπεδο με αυτό που είναι πλήρως ικανό το DeepFloyd.
Με το DeepFloyd IF, το Stability AI και το DeepFloyd έχουν δημιουργήσει ένα ισχυρό και πολλά υποσχόμενο νέο μοντέλο κειμένου σε εικόνα. Ενσωματώνοντας την ευφυΐα του μοντέλου T5 και χρησιμοποιώντας μια μέθοδο διαδοχικής διάχυσης pixel, το μοντέλο δημιουργεί φωτορεαλιστικές εικόνες με υψηλό βαθμό ακρίβειας. Καθώς η γενετική τεχνητή νοημοσύνη συνεχίζει να εξελίσσεται, είναι σαφές ότι μοντέλα όπως το DeepFloyd IF θα διαδραματίσουν όλο και πιο σημαντικό ρόλο στο πεδίο.
Πηγή: Blog του Stability AI
Άλεξ Κρεγκ
Ο Alex οδηγείται από ένα πάθος για την τεχνολογία και το περιεχόμενο gaming. Είτε παίζετε τα πιο πρόσφατα βιντεοπαιχνίδια, παρακολουθείτε τα πιο πρόσφατα νέα τεχνολογίας είτε συμμετέχετε με άλλους ομοϊδεάτες στο διαδίκτυο, η αγάπη του Alex για την τεχνολογία και τα παιχνίδια είναι εμφανής σε όλα όσα κάνει.
Ο Alex οδηγείται από ένα πάθος για την τεχνολογία και το περιεχόμενο gaming. Είτε παίζετε τα πιο πρόσφατα βιντεοπαιχνίδια, παρακολουθείτε τα πιο πρόσφατα νέα τεχνολογίας είτε συμμετέχετε με άλλους ομοϊδεάτες στο διαδίκτυο, η αγάπη του Alex για την τεχνολογία και τα παιχνίδια είναι εμφανής σε όλα όσα κάνει.