วิธีการกอดตัวกรองใบหน้า ()

Hugging Face มีโมเดลและชุดข้อมูลการประมวลผลภาษาธรรมชาติ (NLP) มากมาย ชุดข้อมูลขนาดมหึมาเหล่านี้มีข้อมูลมากมายที่ช่วยฝึกโมเดลได้อย่างแม่นยำ อย่างไรก็ตาม บางครั้งเราไม่ต้องการชุดข้อมูลทั้งหมดเพราะเราต้องการเพียงส่วนเล็กๆ เท่านั้นเพื่อตอบสนองความต้องการในปัจจุบันของเรา หากเราต้องการใช้ชุดข้อมูลเดียวกันตามปกติกับข้อมูลทั้งหมด การฝึกโมเดลและการปรับให้เหมาะสมจะใช้เวลานานซึ่งถือเป็นการเสียเวลา

ดังนั้นเราจึงต้องการวิธีการหรือแพ็คเกจที่สามารถดึงข้อมูลที่เกี่ยวข้องออกจากชุดข้อมูลได้ ในภาษาง่ายๆ เราสามารถพูดได้ว่าเราต้องการตัวเลือกตัวกรองเพิ่มเติมเพื่อกรองชุดข้อมูลตามความต้องการของเรา

Hugging Face มีตัวเลือกต่างๆ ในการกรองชุดข้อมูล ซึ่งจะช่วยให้ผู้ใช้สามารถสร้างชุดข้อมูลที่กำหนดเองซึ่งมีเฉพาะตัวอย่างหรือข้อมูลที่ตรงตามเงื่อนไขเฉพาะเท่านั้น

เลือก() วิธีการ

วิธีนี้ใช้ได้กับรายการดัชนีซึ่งหมายความว่าเราต้องกำหนดรายการ ภายในรายการนั้น เราต้องพูดถึงค่าดัชนีของแถวทั้งหมดที่เราต้องการแยกออกมา แต่วิธีนี้ใช้ได้เฉพาะกับชุดข้อมูลขนาดเล็กเท่านั้น ไม่ใช่สำหรับชุดข้อมูลขนาดใหญ่ เนื่องจากเราไม่สามารถดูชุดข้อมูลทั้งหมดได้หากเป็นหน่วย GB (กิกะไบต์) หรือ TB (เทระไบต์)

ตัวอย่าง : :

new_dataset = ชุดข้อมูล เลือก ( [ 0 , สิบเอ็ด , ยี่สิบเอ็ด , สี่ห้า , ห้าสิบ , 55 ] )

พิมพ์ ( เท่านั้น ( new_dataset ) )

ในตัวอย่างนี้ เราใช้วิธี 'เลือก' เพื่อกรองข้อมูลที่จำเป็นจากชุดข้อมูล

วิธีการกรอง ()

เมธอด filter() เอาชนะปัญหากระบวนการ select() เนื่องจากไม่มีเงื่อนไขเฉพาะ filter() วิธีการส่งกลับแถวทั้งหมดที่ตรงกับสถานการณ์หรือเงื่อนไขเฉพาะ

ตัวอย่าง: เราบันทึกโปรแกรม Python นี้ด้วยชื่อ 'test.py'

จาก ชุดข้อมูล นำเข้า load_dataset

# ขั้นตอนที่ 1: โหลดชุดข้อมูล
ชุดข้อมูล = load_dataset ( 'ไอเอ็มดีบี' )

# ขั้นตอนที่ 2: กำหนดฟังก์ชันการกรอง
แน่นอน กำหนดเอง_ตัวกรอง ( ตัวอย่าง ) : :
'''
ฟังก์ชันการกรองแบบกำหนดเองเพื่อเก็บตัวอย่างที่เป็นบวก
ความรู้สึก (ป้ายกำกับ == 1)
'''
กลับ ตัวอย่าง [ 'ฉลาก' ] == 1

# ขั้นตอนที่ 3: ใช้ตัวกรองเพื่อสร้างชุดข้อมูลที่กรองใหม่
filtered_dataset = ชุดข้อมูล กรอง ( กำหนดเอง_ตัวกรอง )

# ขั้นตอนที่ 4: ตรวจสอบชื่อคอลัมน์ที่มีอยู่ในชุดข้อมูลที่กรอง
พิมพ์ ( 'คอลัมน์ที่มีอยู่ในชุดข้อมูลที่กรอง:' ,
filtered_dataset. คอลัมน์_ชื่อ )

# ขั้นตอนที่ 5: เข้าถึงข้อมูลจากชุดข้อมูลที่กรอง
กรอง_ตัวอย่าง = filtered_dataset [ 'รถไฟ' ]
num_filtered_examples = เท่านั้น ( กรอง_ตัวอย่าง )

# ขั้นตอนที่ 6: พิมพ์จำนวนตัวอย่างที่กรองทั้งหมด
พิมพ์ ( 'ตัวอย่างที่กรองทั้งหมด:' , num_filtered_examples )

เอาท์พุท:

คำอธิบาย:

บรรทัดที่ 1: เรานำเข้าแพ็คเกจ load_dataset ที่จำเป็นจากชุดข้อมูล

บรรทัดที่ 4: เราโหลดชุดข้อมูล “imdb” โดยใช้ load_dataset

บรรทัดที่ 7 ถึง 12: เรากำหนดฟังก์ชันการกรองแบบกำหนดเอง “ กำหนดเอง_ตัวกรอง “ เพื่อเก็บตัวอย่างด้วยความรู้สึกเชิงบวก (ป้ายกำกับ == 1) ฟังก์ชันนี้ส่งคืนเฉพาะแถวที่มีค่าป้ายกำกับเป็น 1

บรรทัดที่ 15: บรรทัดนี้แสดงว่าชุดข้อมูลมีข้อมูลบทวิจารณ์ภาพยนตร์ 'imdb' ตอนนี้เราใช้ฟังก์ชันตัวกรองกับฐานข้อมูลนี้เพื่อแยกบทวิจารณ์เชิงบวกออกจากฐานข้อมูลซึ่งจัดเก็บเพิ่มเติมไว้ใน “filtered_dataset”

บรรทัดที่ 18 และ 19: ตอนนี้ เราตรวจสอบว่าชื่อคอลัมน์ใดบ้างที่มีอยู่ใน filtered_dataset ดังนั้นโค้ด “filtered_dataset.column_names” จะให้รายละเอียดข้อกำหนดของเรา

บรรทัดที่ 22 และ 23: ในบรรทัดเหล่านี้ เรากรองคอลัมน์ 'train' ของชุดข้อมูล filtered_dataset และพิมพ์จำนวนทั้งหมด (ความยาว) ของคอลัมน์ train

บรรทัดที่ 26: ในบรรทัดสุดท้ายนี้ เราพิมพ์ผลลัพธ์จากบรรทัดที่ 23

Filter() พร้อมดัชนี

filter() วิธีการยังสามารถใช้กับดัชนีที่เห็นในโหมด select() แต่สำหรับสิ่งนั้น เราต้องพูดถึงว่าต้องระบุคีย์เวิร์ด “with_indices=true” ภายนอกเมธอด filter() ดังที่แสดงในตัวอย่างต่อไปนี้:

Odd_dataset = ชุดข้อมูล กรอง ( แลมบ์ดา ตัวอย่าง , idx: idx % 2 != 0 , with_indices = จริง )

พิมพ์ ( เท่านั้น ( Odd_dataset ) )

ในตัวอย่างนี้ เราใช้เมธอด filter() เพื่อกรองข้อมูลที่จำเป็นจากชุดข้อมูล รวมถึงเฉพาะแถวที่เป็นเลขคี่

รายละเอียดทั้งหมดของแต่ละพารามิเตอร์ของเมธอด filter() มีอยู่ที่นี่ ลิงค์ .

บทสรุป

ไลบรารีชุดข้อมูล Hugging Face มอบชุดเครื่องมือที่มีประสิทธิภาพและใช้งานง่ายเพื่อทำงานกับชุดข้อมูลต่างๆ ได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งในบริบทของการประมวลผลภาษาธรรมชาติ (NLP) และงานการเรียนรู้ของเครื่อง ฟังก์ชัน filter() ที่นำเสนอในโปรแกรมช่วยให้นักวิจัยและผู้ปฏิบัติงานสามารถดึงข้อมูลชุดย่อยที่เกี่ยวข้องโดยการกำหนดเกณฑ์การกรองที่ผู้ใช้กำหนด การใช้ฟังก์ชันนี้ทำให้ผู้ใช้สามารถสร้างชุดข้อมูลใหม่ที่ตรงตามเงื่อนไขที่กำหนด เช่น การรักษาความรู้สึกเชิงบวกในการวิจารณ์ภาพยนตร์ หรือการดึงข้อมูลข้อความที่เฉพาะเจาะจงได้อย่างง่ายดาย

การสาธิตทีละขั้นตอนนี้แสดงให้เห็นว่าการโหลดชุดข้อมูล การใช้ฟังก์ชันตัวกรองแบบกำหนดเอง และการเข้าถึงข้อมูลที่กรองนั้นง่ายดายเพียงใด นอกจากนี้ ความยืดหยุ่นของพารามิเตอร์ฟังก์ชันช่วยให้สามารถดำเนินการกรองแบบกำหนดเองได้ รวมถึงการรองรับการประมวลผลหลายรายการสำหรับชุดข้อมูลขนาดใหญ่ ด้วยไลบรารีชุดข้อมูล Hugging Face ผู้ใช้สามารถปรับปรุงข้อมูลของตนได้

วิธีการกอดตัวกรองใบหน้า ()

เลือก() วิธีการ

ตัวอย่าง : :

วิธีการกรอง ()

คำอธิบาย:

Filter() พร้อมดัชนี

บทสรุป

หมวดหมู่

โพสต์ยอดนิยม

หมีแพนด้าเติมน่านด้วย0

ขนาดของ C ''int'' 2 ไบต์หรือ 4 ไบต์?

แพนด้าคิวคัท

จะขยายดิสก์โวลุ่มพื้นฐานบน Windows ได้อย่างไร

วิธีค้นหาค่าสูงสุดและต่ำสุดในเมทริกซ์ชุดข้อมูลขนาดใหญ่ใน MATLAB

จะดาวน์โหลด Windows Movie Maker ได้อย่างไร

วิธีย้อนกลับการแก้ไขใน Git โดยใช้คำสั่ง 'git revert'

Java TreeSet

จะใช้ Select Statement ใน Golang ได้อย่างไร?

จะจัดสรรบัฟเฟอร์ที่ไม่ปลอดภัยด้วย Buffer.allocUnsafe () ใน Node.js ได้อย่างไร

วิธีการติดตั้งคอมไพเลอร์ GCC สำหรับ Windows

Windows 10 KB5014023 เปิดตัวแล้ว ติดตั้งอัปเดตเพื่อประสิทธิภาพและการแก้ไข

วิธีการติดตั้ง CLion IDE บน Fedora Linux

จะจัดสรรหน่วยความจำ CUDA ด้วยตัวแปร“ pytorch_cuda_alloc_conf” ได้อย่างไร

วิธีแก้ไขปัญหา Discord ไม่เชื่อมต่อ

พิมพ์ Stacktrace ใน Pyhton Log

วิธีลบการคอมมิตจากสาขาใน Git

ติดตั้งไดรฟ์อัตโนมัติบน Linux

ตัวดำเนินการ MongoDB $Min

วิธีตั้งค่าไฟร์วอลล์ด้วย UFW บน Debian 11