Dalle-mini คืออะไรและทำงานอย่างไร

Dalle Mini Khux Xari Laea Thangan Xyangri



Dalle-mini เป็นโมเดลการเรียนรู้เชิงลึกที่สามารถสร้างภาพคุณภาพสูงจากข้อความที่ผู้ใช้ป้อน มันขึ้นอยู่กับโมเดล DALL-E ซึ่ง OpenAI เปิดตัวในเดือนมกราคม 2021 DALL-E ย่อมาจาก “ ภาษาที่ไม่พันกันและการแสดงออกที่แฝงอยู่ ” เป็นโครงข่ายประสาทเทียมแบบทรานส์ฟอร์มเมอร์ที่สามารถเข้ารหัสข้อความและรูปภาพลงในพื้นที่แฝงทั่วไป แล้วถอดรหัสกลับเป็นรูปแบบใดรูปแบบหนึ่ง

บทความนี้จะอธิบายเนื้อหาดังต่อไปนี้:







Dalle-mini คืออะไร?

ให้เธอมินิ เป็นเวอร์ชันที่เล็กกว่าและเร็วกว่าของ DALL-E ซึ่งสร้างโดย EleutherAI ซึ่งเป็นกลุ่มวิจัยโอเพ่นซอร์ส Dalle-mini ใช้พารามิเตอร์เพียง 6 พันล้านพารามิเตอร์ เทียบกับ 12 พันล้านของ DALL-E และสามารถทำงานได้บน GPU ตัวเดียว Dalle-mini ยังใช้ tokenizer และคำศัพท์ที่แตกต่างกันสำหรับการป้อนข้อความ ซึ่งทำให้เข้ากันได้กับภาษาและโดเมนต่างๆ มากขึ้น:




บันทึก : ผู้ใช้สามารถสร้างภาพที่ไม่มีค่าใช้จ่ายโดยใช้ Dalle-mini โดยทำตาม ลิงค์ .



การทำงานของ Dalle-mini คืออะไร?

แนวคิดหลักที่อยู่เบื้องหลัง Dalle-mini คือพลังของทรานส์ฟอร์มเมอร์ ซึ่งเป็นโครงข่ายประสาทเทียม พวกเขาสามารถเรียนรู้การพึ่งพาระยะยาวและรูปแบบที่ซับซ้อนในข้อมูลตามลำดับ เช่น ข้อความหรือรูปภาพ





Transformers ประกอบด้วยสองส่วนหลัก: ตัวเข้ารหัสและตัวถอดรหัส ส่วนแรกใช้อินพุต (คำอธิบายข้อความ) และเปลี่ยนเป็นเวกเตอร์ที่ซ่อนอยู่ หลังจากนั้นตัวถอดรหัสจะใช้มันและสร้างเอาต์พุต (ภาพ) ที่เกี่ยวข้องกับอินพุต

อะไรคือความแตกต่างระหว่าง Dalle-mini และ DALL-E?

Dalle-mini และ DALL-E ใช้สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัสที่ใช้ร่วมกันสำหรับทั้งข้อความและรูปภาพ พวกเขาสามารถเข้ารหัสและถอดรหัสทั้งสองรูปแบบโดยใช้เครือข่ายเดียวกัน สิ่งนี้ช่วยให้พวกเขาเรียนรู้พื้นที่แฝงทั่วไปที่รวบรวมความสัมพันธ์เชิงความหมายระหว่างข้อความและรูปภาพ หลังจากนั้นให้เปิดใช้งานการสร้างข้ามโมดอล เช่น การสร้างรูปภาพจากข้อความหรือในทางกลับกัน



Dalle-mini ทำงานอย่างไร

ในการสร้างรูปภาพจากคำอธิบายข้อความ ก่อนอื่น Dalle-mini จะทำการโทเค็นข้อความโดยใช้อัลกอริทึมการเข้ารหัสแบบไบต์คู่ (BPE) ซึ่งจะแยกข้อความออกเป็นหน่วยคำย่อยตามความถี่และเหตุการณ์ร่วม:


ให้เราไปที่รายละเอียดการทำงานภายในของ Dalle-mini:

การทำงานภายในของ Dalle-mini

สมมุติว่าคำว่า กำลังเล่น ” อาจแยกเป็น “ ปลา ' และ ' หญิง '. โทเค็นจะถูกแมปกับรหัสตัวเลขโดยใช้คำศัพท์ของโทเค็น 8192 IDs จะถูกป้อนเข้าไปในตัวเข้ารหัส สร้างการแสดงแฝงขนาด 256 x 64:


จากนั้นตัวถอดรหัสจะใช้การแสดงแฝงและสร้างภาพขนาด 256 x 256 พิกเซล ตัวถอดรหัสใช้กระบวนการถดถอยอัตโนมัติ ซึ่งหมายความว่าจะสร้างแต่ละพิกเซลทีละพิกเซล โดยกำหนดเงื่อนไขในพิกเซลก่อนหน้าและการแสดงแฝง

วิธีสร้างรูปภาพจากคำอธิบายข้อความโดยใช้ Dalle-mini

หากต้องการสร้างคำอธิบายข้อความจากรูปภาพโดยใช้ Dalle-mini ให้ป้อนข้อความลงในหน้าต่างแจ้ง เช่น พิมพ์ “ ภาพวาดดอกไม้แบบสุ่ม ” ในพรอมต์และกดปุ่ม “ วิ่ง ' ปุ่ม:


ผลลัพธ์แสดงว่า Dalle-mini ได้สร้างภาพที่เกี่ยวข้องตามข้อความที่ป้อน

บทสรุป

Dalle-mini เป็นรุ่นที่โดดเด่นซึ่งแสดงให้เห็นถึงศักยภาพของหม้อแปลงสำหรับรุ่นข้ามรุ่น พวกเขาสามารถสร้างภาพที่เหมือนจริงและหลากหลายจากคำอธิบายภาษาธรรมชาติ ตลอดจนข้อความที่เชื่อมโยงกันและเกี่ยวข้องจากรูปภาพ นอกจากนี้ยังสามารถจัดการองค์ประกอบที่ซับซ้อน เช่น การรวมวัตถุหรือคุณลักษณะหลายรายการไว้ในรูปภาพหรือข้อความเดียว บทความนี้ได้อธิบาย Dalle-mini และรายละเอียดการทำงาน