Model Text-to-Image Baru yang Perlu Anda Ketahui Tentang: DeepFloyd IF – TechCult
Bermacam Macam / / May 06, 2023
Jika Adobe dan DALL-E sudah tidak mempersulit desainer grafis, ada AI baru di kota. Model text-to-image baru yang perlu Anda ketahui adalah DeepFloyd IF. Temui DeepFloyd IF, model teks-ke-gambar terbaru yang dirilis oleh grup riset DeepFloyd, didukung oleh Stabilitas AI. Ini pasti akan mengguncang segalanya lebih jauh untuk AI generatif gambar.
DeepFloyd, grup riset yang didukung oleh Stability AI, telah mengumumkan perilisan model text-to-image baru mereka, DeepFloyd IF. Model ini menggunakan metode difusi piksel bertingkat yang kuat untuk menghasilkan gambar dari petunjuk tekstual. Dengan lisensi non-komersial yang diizinkan untuk penelitian, DeepFloyd IF memberikan peluang unik bagi laboratorium penelitian untuk memeriksa dan bereksperimen dengan pendekatan pembuatan teks-ke-gambar tingkat lanjut.
Model DeepFloyd IF menggabungkan kecerdasan model bahasa besar T5-XXL-1.1, yang memungkinkan untuk sejumlah besar lapisan lintas-perhatian teks-gambar, memberikan prompt dan aliansi gambar yang lebih baik. Ini menghasilkan teks yang koheren dan jelas di samping objek dengan properti berbeda yang muncul dalam berbagai hubungan spasial.
- DeepFloyd IF adalah model teks-ke-gambar yang menggunakan metode difusi piksel bertingkat untuk menghasilkan gambar dari petunjuk tekstual.
- Model ini menggabungkan kecerdasan model bahasa besar T5-XXL-1.1, memungkinkan aliansi gambar dan prompt yang lebih baik.
- DeepFloyd IF menghasilkan teks yang koheren dan jelas di samping objek dari berbagai properti yang muncul dalam berbagai hubungan spasial.
- Model ini memiliki tingkat fotorealisme yang tinggi, tercermin dalam skor FID zero-shot yang mengesankan sebesar 6,66 pada dataset COCO.
- DeepFloyd IF dapat menghasilkan gambar dengan rasio aspek non-standar dan memungkinkan terjemahan gambar-ke-gambar zero-shot.
- Model dapat membuat gambar dari prompt seperti "boneka beruang mengenakan kemeja bertuliskan 'Deep Floyd'" — opsional dalam berbagai gaya.
- DeepFloyd IF melakukan difusi beberapa kali, menghasilkan gambar 64x64px lalu meningkatkannya menjadi 256x256px dan terakhir menjadi 1024x1024px.
- DeepFloyd IF menggunakan model bahasa besar untuk memahami dan merepresentasikan prompt sebagai vektor, menjadikannya sangat baik dalam memahami prompt kompleks dan hubungan spasial yang dijelaskan dalam prompt.
- Model ini tersedia dalam sumber terbuka, dan dilisensikan dengan cara yang melarang penggunaan komersial.
Salah satu perbedaan utama antara DeepFloyd IF dan model lain seperti Stable Diffusion dan DALL-E 2 adalah DeepFloyd IF menggunakan model bahasa besar untuk memahami dan mewakili prompt sebagai vektor. Karena ukuran model bahasa besar yang disematkan dalam arsitektur DeepFloyd IF, modelnya adalah sangat baik dalam memahami petunjuk yang kompleks dan bahkan hubungan spasial yang dijelaskan dalam prompt.
DeepFloyd IF tersedia dalam sumber terbuka, dan dilisensikan dengan cara yang melarang penggunaan komersial, untuk saat ini. Pembatasan itu kemungkinan dimotivasi oleh status hukum model seni AI generatif yang lemah saat ini. Sampai tersedia untuk penggunaan komersial, inilah cara Anda menggunakan DeepFloyd IF:
1. Mengunjungi Halaman demo DeepFloyd IF.
2. Ketik prompt yang Anda inginkan gambarnya.
3. Klik Menghasilkan.
Ini akan menghasilkan gambar untuk Anda. Perlu diingat bahwa ini adalah demo dan mungkin tidak setara dengan kemampuan DeepFloyd sepenuhnya.
Dengan DeepFloyd IF, Stability AI dan DeepFloyd telah menciptakan model text-to-image baru yang kuat dan menjanjikan. Dengan menggabungkan kecerdasan model T5 dan menggunakan metode difusi piksel berjenjang, model ini menghasilkan gambar fotorealistik dengan tingkat akurasi yang tinggi. Saat AI generatif terus berkembang, jelas bahwa model seperti DeepFloyd IF akan memainkan peran yang semakin penting di lapangan.
Sumber: Blog Stabilitas AI
Alex Craig
Alex didorong oleh hasrat untuk teknologi dan konten game. Baik itu dengan memainkan video game terbaru, mengikuti berita teknologi terbaru, atau terlibat dengan orang-orang lain yang berpikiran sama secara online, kecintaan Alex pada teknologi dan game terbukti dalam semua hal yang dia lakukan melakukan.
Alex didorong oleh hasrat untuk teknologi dan konten game. Baik itu dengan memainkan video game terbaru, mengikuti berita teknologi terbaru, atau terlibat dengan orang-orang lain yang berpikiran sama secara online, kecintaan Alex pada teknologi dan game terbukti dalam semua hal yang dia lakukan melakukan.