วิธีการจำแนกข้อความโดยใช้ Transformers

Withi Kar Canaek Khxkhwam Doy Chi Transformers



ในยุคนี้ Transformers เป็นโมเดลที่ทรงพลังที่สุดซึ่งให้ผลลัพธ์ที่ดีที่สุดในการดำเนินการ NLP (การประมวลผลภาษาธรรมชาติ) หลายรายการ เริ่มแรก ใช้สำหรับงานการสร้างแบบจำลองภาษา รวมถึงการสร้างข้อความ การจัดหมวดหมู่ การแปลด้วยคอมพิวเตอร์ และอื่นๆ อีกมากมาย แต่ตอนนี้ยังใช้สำหรับการจดจำวัตถุ การจัดหมวดหมู่ภาพ และงานคอมพิวเตอร์วิทัศน์อื่นๆ อีกหลายอย่าง

ในบทช่วยสอนนี้ เราจะจัดเตรียมขั้นตอนสำหรับการดำเนินการจำแนกข้อความโดยใช้ Transformers







จะดำเนินการจำแนกข้อความโดยใช้ Transformers ได้อย่างไร

หากต้องการดำเนินการจำแนกข้อความโดยใช้ Transformers ก่อนอื่นให้ติดตั้ง ' หม้อแปลงไฟฟ้า ” ไลบรารี่โดยดำเนินการคำสั่งที่ให้มา:



! ปิ๊ป ติดตั้ง หม้อแปลงไฟฟ้า


อย่างที่คุณเห็น ไลบรารีที่ระบุได้รับการติดตั้งสำเร็จแล้ว:




จากนั้นนำเข้า ' ไปป์ไลน์ ' จาก ' หม้อแปลงไฟฟ้า ' ห้องสมุด:





จากไปป์ไลน์นำเข้าหม้อแปลงไฟฟ้า


ที่นี่ “ ไปป์ไลน์ ” จะรวมงาน NLP ที่เราจำเป็นต้องดำเนินการและโมเดลหม้อแปลงที่ต้องการสำหรับการดำเนินการนี้พร้อมกับโทเค็นไนเซอร์

บันทึก: Tokenizer ใช้เพื่อประมวลผลข้อความที่จัดเตรียมไว้ให้กับอินพุตของโมเดลโดยแยกข้อความออกเป็นโทเค็น



หลังจากนั้นให้ใช้เครื่องหมาย “ ไปป์ไลน์() ” ฟังก์ชั่นและส่งผ่านมัน “ การจำแนกประเภทเป็นศูนย์ช็อต ” เป็นข้อโต้แย้ง จากนั้นส่งพารามิเตอร์อื่นซึ่งเป็นโมเดลของเรา เรากำลังใช้งาน Facebook “ บาร์ต ” โมเดลหม้อแปลงไฟฟ้า ในที่นี้ เราไม่ใช้โทเค็นไนเซอร์ เนื่องจากโมเดลที่ระบุสามารถอนุมานได้โดยอัตโนมัติ:

text_classifier = ไปป์ไลน์ ( 'การจำแนกประเภทช็อตเป็นศูนย์' , แบบอย่าง = 'facebook/bart-large-mnli' )


ตอนนี้ประกาศ ' ลำดับ ” ตัวแปรที่เก็บข้อความอินพุตของเราซึ่งจำเป็นต้องจัดประเภท จากนั้น เราจะจัดเตรียมหมวดหมู่ที่เราต้องการจัดประเภทข้อความและบันทึกไว้ในส่วน “ ห้องปฏิบัติการ ” ซึ่งเรียกว่าป้ายกำกับ:

ลำดับ = 'การพิสูจน์อักษรและการแก้ไขเป็นองค์ประกอบที่จำเป็นเพื่อให้มั่นใจในความชัดเจน ความสอดคล้องกัน และเนื้อหาที่ปราศจากข้อผิดพลาด'
แล็บ = [ 'อัปเดต' , 'ความผิดพลาด' , 'สำคัญ' , 'การยืนยัน' ]


สุดท้ายให้รันไปป์ไลน์พร้อมกับอินพุต:

text_ลักษณนาม ( ลำดับ , ห้องปฏิบัติการ )


หลังจากดำเนินการไปป์ไลน์แล้ว ดังที่คุณเห็นแบบจำลองทำนายลำดับที่เราให้มาเพื่อจัดประเภท:


ข้อมูลเพิ่มเติม: หากคุณต้องการเร่งประสิทธิภาพของโมเดลคุณต้องใช้ GPU ถ้าใช่ เพื่อจุดประสงค์นั้น คุณสามารถระบุอาร์กิวเมนต์อุปกรณ์ให้กับไปป์ไลน์และตั้งค่าเป็น “ 0 ” เพื่อใช้ GPU

หากคุณต้องการจัดประเภทข้อความในคำสั่งข้อความลำดับ/อินพุตมากกว่าหนึ่งรายการ คุณสามารถเพิ่มข้อความเหล่านั้นลงในรายการและส่งผ่านเป็นอินพุตไปยังไปป์ไลน์ได้ เพื่อจุดประสงค์ดังกล่าว โปรดดูข้อมูลโค้ด:

ลำดับ = [ 'การพิสูจน์อักษรและการแก้ไขเป็นองค์ประกอบที่จำเป็นเพื่อให้มั่นใจในความชัดเจน ความสอดคล้องกัน และเนื้อหาที่ปราศจากข้อผิดพลาด' ,
'ในยุคสมัยใหม่นี้ การเพิ่มประสิทธิภาพ SEO ถือเป็นสิ่งสำคัญสำหรับบทความในการจัดอันดับที่ดีและเข้าถึงผู้ชมในวงกว้าง' ]

text_ลักษณนาม ( ลำดับ , ห้องปฏิบัติการ )


เอาท์พุต


แค่นั้นแหละ! เราได้รวบรวมวิธีที่ง่ายที่สุดในการดำเนินการจำแนกข้อความโดยใช้ Transformers

บทสรุป

Transformers ถูกใช้เพื่อดำเนินงานการสร้างแบบจำลองภาษา เช่น การสร้างข้อความ การจัดหมวดหมู่ข้อความ และการแปลด้วยเครื่อง รวมถึงงานการมองเห็นของคอมพิวเตอร์ รวมถึงการจดจำวัตถุ และการจัดหมวดหมู่รูปภาพ ในบทช่วยสอนนี้ เราได้อธิบายขั้นตอนการดำเนินการจำแนกข้อความโดยใช้ Transformers