วิธีใช้ชุดข้อมูล Hugging Face

Withi Chi Chud Khxmul Hugging Face



การบังคับใช้และการใช้งานของโมเดล Machine Learning ได้รับการทดสอบจากข้อมูล ความน่าเชื่อถือของการทดสอบขึ้นอยู่กับปริมาณและคุณภาพของข้อมูลที่ใช้แบบจำลองเหล่านี้เป็นอย่างมาก เป็นงานที่สมบูรณ์ในตัวมันเองในการสร้าง รับ และล้างชุดข้อมูลขนาดใหญ่ที่เหมาะสมเพื่อทดสอบ “ การประมวลผลภาษาธรรมชาติ (เอ็นแอลพี) ” โมเดลการเรียนรู้ของเครื่อง

Hugging Face นำเสนอโซลูชั่นที่เรียบร้อยสำหรับสิ่งนี้ด้วยคลังชุดข้อมูลขนาดใหญ่เป็นพิเศษที่ให้เลือกและค้นหาชุดที่ตรงกับความต้องการของคุณอย่างสมบูรณ์แบบ ที่นี่ เราจะแสดงวิธีค้นหาชุดข้อมูลในอุดมคติและจัดเตรียมเพื่อทดสอบแบบจำลองของคุณอย่างเพียงพอ







วิธีใช้ชุดข้อมูล Hugging Face

เราจะแสดงวิธีใช้ชุดข้อมูล Hugging Face โดยใช้ตัวอย่าง ' TinyStories ” ชุดข้อมูลจาก Hugging Face



ตัวอย่าง

ชุดข้อมูล TinyStories มีข้อมูลมากกว่า 2 ล้านแถวในการแยกรถไฟ และมีการดาวน์โหลดมากกว่า 2 พันครั้งบนแพลตฟอร์ม Hugging Face เราจะใช้ในโค้ดใน Google Colab ที่ระบุด้านล่าง:



! ปิ๊ป ติดตั้ง หม้อแปลงไฟฟ้า
! ปิ๊ป ติดตั้ง ชุดข้อมูล

จากชุดข้อมูลนำเข้า load_dataset

ชุดข้อมูล = load_dataset ( 'โรเนลดัน/ไทนี่สตอรี่' )

TinyStories_Story = 3
example_string = ชุดข้อมูล [ 'รถไฟ' ] [ TinyStories_เรื่องราว ] [ 'ข้อความ' ]

พิมพ์ ( example_string )


ในรหัสนี้ ให้พิจารณาขั้นตอนที่ระบุไว้ด้านล่าง:





ขั้นตอนที่ 01 : ขั้นตอนแรกคือ “ การติดตั้ง ” ของชุดข้อมูลหม้อแปลง

ขั้นตอนที่ 02 : ถัดไป นำเข้าชุดข้อมูลที่ต้องการ “ TinyStories ” ในโครงการของคุณ



ขั้นตอนที่ 03 : จากนั้นให้โหลดชุดข้อมูลที่เลือกโดยใช้ปุ่ม “ load_dataset() ' การทำงาน.

ขั้นตอนที่ 04 : ตอนนี้เราระบุหมายเลข Story ที่เราต้องการจากชุดข้อมูล TinyStories เราได้ระบุหมายเลข 03 ในตัวอย่างโค้ดของเรา

ขั้นตอนที่ 05 : สุดท้ายนี้ เราจะใช้เมธอด “print()” เพื่อแสดงผลลัพธ์

เอาท์พุต



บันทึก: โค้ดและผลลัพธ์สามารถดูได้โดยตรงใน Google Colab ของเรา .

บทสรุป

ชุดข้อมูล Hugging Face ” ทำให้ผู้ใช้สามารถทดสอบโมเดล Machine Learning ของตนได้อย่างมีประสิทธิภาพอย่างเหลือเชื่อ ในขณะที่นำเข้าชุดข้อมูลขนาดใหญ่จากไลบรารีออนไลน์โดยตรง เป็นผลให้การประยุกต์ใช้อัลกอริธึม NLP กลายเป็นเรื่องง่ายและรวดเร็วยิ่งขึ้น เนื่องจากโปรแกรมเมอร์สามารถทดสอบโปรเจ็กต์ของตนกับชุดข้อมูลที่มีทั้งคุณภาพและปริมาณได้