โมเดลข้อความเป็นรูปภาพใหม่ที่คุณต้องรู้เกี่ยวกับ: DeepFloyd IF – TechCult
เบ็ดเตล็ด / / May 06, 2023
ถ้า อะโดบี และ DALL-E ก็ไม่ได้ทำให้มันยากสำหรับนักออกแบบกราฟิก แต่ก็มี AI ใหม่ในเมืองนี้ โมเดลข้อความเป็นรูปภาพใหม่ที่คุณต้องรู้คือ DeepFloyd IF พบกับ DeepFloyd IF โมเดลข้อความเป็นรูปภาพล่าสุดที่เผยแพร่โดยกลุ่มวิจัย DeepFloyd ซึ่งสนับสนุนโดย AI เสถียรภาพ. แน่นอนว่าจะทำให้สิ่งต่างๆ สั่นคลอนยิ่งขึ้นสำหรับ AI ที่สร้างภาพ
ดีฟฟลอยด์กลุ่มวิจัยที่ได้รับการสนับสนุนจาก Stability AI ได้ประกาศเปิดตัว DeepFloyd IF โมเดลข้อความเป็นรูปภาพใหม่ รุ่นนี้ใช้วิธีการกระจายพิกเซลแบบเรียงซ้อนที่มีประสิทธิภาพเพื่อสร้างภาพจากข้อความแจ้ง ด้วยใบอนุญาตที่ไม่ใช่เชิงพาณิชย์และอนุญาตการวิจัย DeepFloyd IF มอบโอกาสพิเศษสำหรับห้องปฏิบัติการวิจัยในการตรวจสอบและทดลองด้วยวิธีการสร้างข้อความเป็นรูปภาพขั้นสูง
โมเดล DeepFloyd IF รวมเอาความฉลาดของโมเดลภาษาขนาดใหญ่ T5-XXL-1.1 ซึ่งช่วยให้ สำหรับเลเยอร์การข้ามความสนใจของข้อความและรูปภาพจำนวนมาก ให้ความร่วมมือที่รวดเร็วและรูปภาพที่ดีขึ้น สิ่งนี้ส่งผลให้ข้อความที่สอดคล้องกันและชัดเจนพร้อมกับวัตถุที่มีคุณสมบัติต่างกันปรากฏในความสัมพันธ์เชิงพื้นที่ต่างๆ
- DeepFloyd IF เป็นโมเดลแปลงข้อความเป็นรูปภาพที่ใช้วิธีกระจายพิกเซลแบบเรียงซ้อนเพื่อสร้างรูปภาพจากข้อความแจ้ง
- โมเดลนี้รวมเอาความชาญฉลาดของโมเดลภาษาขนาดใหญ่ T5-XXL-1.1 ไว้ด้วยกัน ทำให้สามารถประสานภาพและโต้ตอบได้ดียิ่งขึ้น
- DeepFloyd IF สร้างข้อความที่สอดคล้องกันและชัดเจนควบคู่ไปกับวัตถุที่มีคุณสมบัติต่างกันซึ่งปรากฏในความสัมพันธ์เชิงพื้นที่ต่างๆ
- โมเดลนี้มีระดับความเหมือนจริงในระดับสูง ซึ่งสะท้อนให้เห็นในคะแนน FID แบบ Zero-shot ที่น่าประทับใจที่ 6.66 ในชุดข้อมูล COCO
- DeepFloyd IF สามารถสร้างภาพที่มีอัตราส่วนภาพที่ไม่เป็นมาตรฐานและอนุญาตให้มีการแปลแบบภาพต่อภาพแบบ Zero-shot
- นางแบบสามารถสร้างภาพจากข้อความแจ้ง เช่น “ตุ๊กตาหมีสวมเสื้อที่อ่านว่า 'ดีพ ฟลอยด์'” — เลือกได้ตามสไตล์ต่างๆ
- DeepFloyd IF ทำการแพร่กระจายหลายครั้ง โดยสร้างภาพขนาด 64x64px จากนั้นขยายขนาดเป็น 256x256px และสุดท้ายเป็น 1024x1024px
- DeepFloyd IF ใช้โมเดลภาษาขนาดใหญ่เพื่อทำความเข้าใจและแสดงข้อความแจ้งเป็นเวกเตอร์ ทำให้เข้าใจข้อความแจ้งที่ซับซ้อนและความสัมพันธ์เชิงพื้นที่ที่อธิบายไว้ในข้อความแจ้งได้ดีเป็นพิเศษ
- โมเดลนี้มีอยู่ในโอเพ่นซอร์ส และได้รับอนุญาตในลักษณะที่ห้ามใช้ในเชิงพาณิชย์
หนึ่งในข้อแตกต่างที่สำคัญระหว่าง DeepFloyd IF กับรุ่นอื่นๆ เช่น Stable Diffusion และ DALL-E 2 คือ DeepFloyd IF ใช้ โมเดลภาษาขนาดใหญ่ เพื่อทำความเข้าใจและแสดงข้อความแจ้งเป็นเวกเตอร์ เนื่องจากขนาดของโมเดลภาษาขนาดใหญ่ที่ฝังอยู่ในสถาปัตยกรรมของ DeepFloyd IF โมเดลจึงเป็นเช่นนั้น โดยเฉพาะอย่างยิ่งในการทำความเข้าใจข้อความแจ้งที่ซับซ้อนและแม้แต่ความสัมพันธ์เชิงพื้นที่ที่อธิบายไว้ใน พร้อมท์
DeepFloyd IF มีให้บริการในรูปแบบโอเพ่นซอร์ส และได้รับอนุญาตในลักษณะที่ห้ามใช้ในเชิงพาณิชย์ในขณะนี้ ข้อจำกัดดังกล่าวน่าจะได้รับแรงบันดาลใจจากสถานะทางกฎหมายที่อ่อนแอในปัจจุบันของโมเดลศิลปะ AI เชิงกำเนิด จนกว่าจะพร้อมใช้งานในเชิงพาณิชย์ นี่คือวิธีที่คุณสามารถใช้ DeepFloyd IF:
1. เยี่ยมชม หน้าสาธิต DeepFloyd IF.
2. พิมพ์พรอมต์ที่คุณต้องการรูปภาพ
3. คลิกที่ สร้าง.
สิ่งนี้จะสร้างภาพให้คุณ โปรดทราบว่านี่เป็นการสาธิตและอาจไม่เทียบเท่ากับสิ่งที่ DeepFloyd สามารถทำได้อย่างสมบูรณ์
ด้วย DeepFloyd IF, Stability AI และ DeepFloyd ได้สร้างโมเดลข้อความเป็นรูปภาพใหม่ที่ทรงพลังและมีแนวโน้ม ด้วยการผสมผสานความชาญฉลาดของโมเดล T5 และใช้วิธีการกระจายพิกเซลแบบเรียงซ้อน โมเดลจะสร้างภาพที่เหมือนจริงด้วยระดับความแม่นยำสูง ในขณะที่ AI เจนเนอเรทีฟมีการพัฒนาอย่างต่อเนื่อง เป็นที่ชัดเจนว่าโมเดลอย่าง DeepFloyd IF จะมีบทบาทสำคัญมากขึ้นในสาขานี้
แหล่งที่มา: บล็อกของ Stability AI
อเล็กซ์ เครก
Alex ขับเคลื่อนด้วยความหลงใหลในเทคโนโลยีและเนื้อหาเกม ไม่ว่าจะเป็นการเล่นวิดีโอเกมล่าสุด การติดตามข่าวสารเทคโนโลยีล่าสุด หรือการมีส่วนร่วม กับบุคคลอื่นๆ ที่มีแนวคิดเดียวกันทางออนไลน์ ความรักในเทคโนโลยีและการเล่นเกมของอเล็กซ์นั้นปรากฏชัดในทุกสิ่งที่เขามี ทำ.
Alex ขับเคลื่อนด้วยความหลงใหลในเทคโนโลยีและเนื้อหาเกม ไม่ว่าจะเป็นการเล่นวิดีโอเกมล่าสุด การติดตามข่าวสารเทคโนโลยีล่าสุด หรือการมีส่วนร่วม กับบุคคลอื่นๆ ที่มีแนวคิดเดียวกันทางออนไลน์ ความรักในเทคโนโลยีและการเล่นเกมของอเล็กซ์นั้นปรากฏชัดในทุกสิ่งที่เขามี ทำ.