วิธีการกอดตัวกรองใบหน้า ()

Withi Kark Xd Taw Krxng Bihna



Hugging Face มีโมเดลและชุดข้อมูลการประมวลผลภาษาธรรมชาติ (NLP) มากมาย ชุดข้อมูลขนาดมหึมาเหล่านี้มีข้อมูลมากมายที่ช่วยฝึกโมเดลได้อย่างแม่นยำ อย่างไรก็ตาม บางครั้งเราไม่ต้องการชุดข้อมูลทั้งหมดเพราะเราต้องการเพียงส่วนเล็กๆ เท่านั้นเพื่อตอบสนองความต้องการในปัจจุบันของเรา หากเราต้องการใช้ชุดข้อมูลเดียวกันตามปกติกับข้อมูลทั้งหมด การฝึกโมเดลและการปรับให้เหมาะสมจะใช้เวลานานซึ่งถือเป็นการเสียเวลา

ดังนั้นเราจึงต้องการวิธีการหรือแพ็คเกจที่สามารถดึงข้อมูลที่เกี่ยวข้องออกจากชุดข้อมูลได้ ในภาษาง่ายๆ เราสามารถพูดได้ว่าเราต้องการตัวเลือกตัวกรองเพิ่มเติมเพื่อกรองชุดข้อมูลตามความต้องการของเรา

Hugging Face มีตัวเลือกต่างๆ ในการกรองชุดข้อมูล ซึ่งจะช่วยให้ผู้ใช้สามารถสร้างชุดข้อมูลที่กำหนดเองซึ่งมีเฉพาะตัวอย่างหรือข้อมูลที่ตรงตามเงื่อนไขเฉพาะเท่านั้น







เลือก() วิธีการ

วิธีนี้ใช้ได้กับรายการดัชนีซึ่งหมายความว่าเราต้องกำหนดรายการ ภายในรายการนั้น เราต้องพูดถึงค่าดัชนีของแถวทั้งหมดที่เราต้องการแยกออกมา แต่วิธีนี้ใช้ได้เฉพาะกับชุดข้อมูลขนาดเล็กเท่านั้น ไม่ใช่สำหรับชุดข้อมูลขนาดใหญ่ เนื่องจากเราไม่สามารถดูชุดข้อมูลทั้งหมดได้หากเป็นหน่วย GB (กิกะไบต์) หรือ TB (เทระไบต์)



ตัวอย่าง : :

new_dataset = ชุดข้อมูล เลือก ( [ 0 , สิบเอ็ด , ยี่สิบเอ็ด , สี่ห้า , ห้าสิบ , 55 ] )

พิมพ์ ( เท่านั้น ( new_dataset ) )

ในตัวอย่างนี้ เราใช้วิธี 'เลือก' เพื่อกรองข้อมูลที่จำเป็นจากชุดข้อมูล



วิธีการกรอง ()

เมธอด filter() เอาชนะปัญหากระบวนการ select() เนื่องจากไม่มีเงื่อนไขเฉพาะ filter() วิธีการส่งกลับแถวทั้งหมดที่ตรงกับสถานการณ์หรือเงื่อนไขเฉพาะ





ตัวอย่าง: เราบันทึกโปรแกรม Python นี้ด้วยชื่อ 'test.py'

จาก ชุดข้อมูล นำเข้า load_dataset

# ขั้นตอนที่ 1: โหลดชุดข้อมูล
ชุดข้อมูล = load_dataset ( 'ไอเอ็มดีบี' )

# ขั้นตอนที่ 2: กำหนดฟังก์ชันการกรอง
แน่นอน กำหนดเอง_ตัวกรอง ( ตัวอย่าง ) : :
'''
ฟังก์ชันการกรองแบบกำหนดเองเพื่อเก็บตัวอย่างที่เป็นบวก
ความรู้สึก (ป้ายกำกับ == 1)
'''

กลับ ตัวอย่าง [ 'ฉลาก' ] == 1

# ขั้นตอนที่ 3: ใช้ตัวกรองเพื่อสร้างชุดข้อมูลที่กรองใหม่
filtered_dataset = ชุดข้อมูล กรอง ( กำหนดเอง_ตัวกรอง )

# ขั้นตอนที่ 4: ตรวจสอบชื่อคอลัมน์ที่มีอยู่ในชุดข้อมูลที่กรอง
พิมพ์ ( 'คอลัมน์ที่มีอยู่ในชุดข้อมูลที่กรอง:' ,
filtered_dataset. คอลัมน์_ชื่อ )

# ขั้นตอนที่ 5: เข้าถึงข้อมูลจากชุดข้อมูลที่กรอง
กรอง_ตัวอย่าง = filtered_dataset [ 'รถไฟ' ]
num_filtered_examples = เท่านั้น ( กรอง_ตัวอย่าง )

# ขั้นตอนที่ 6: พิมพ์จำนวนตัวอย่างที่กรองทั้งหมด
พิมพ์ ( 'ตัวอย่างที่กรองทั้งหมด:' , num_filtered_examples )

เอาท์พุท:



คำอธิบาย:

บรรทัดที่ 1: เรานำเข้าแพ็คเกจ load_dataset ที่จำเป็นจากชุดข้อมูล

บรรทัดที่ 4: เราโหลดชุดข้อมูล “imdb” โดยใช้ load_dataset

บรรทัดที่ 7 ถึง 12: เรากำหนดฟังก์ชันการกรองแบบกำหนดเอง กำหนดเอง_ตัวกรอง เพื่อเก็บตัวอย่างด้วยความรู้สึกเชิงบวก (ป้ายกำกับ == 1) ฟังก์ชันนี้ส่งคืนเฉพาะแถวที่มีค่าป้ายกำกับเป็น 1

บรรทัดที่ 15: บรรทัดนี้แสดงว่าชุดข้อมูลมีข้อมูลบทวิจารณ์ภาพยนตร์ 'imdb' ตอนนี้เราใช้ฟังก์ชันตัวกรองกับฐานข้อมูลนี้เพื่อแยกบทวิจารณ์เชิงบวกออกจากฐานข้อมูลซึ่งจัดเก็บเพิ่มเติมไว้ใน “filtered_dataset”

บรรทัดที่ 18 และ 19: ตอนนี้ เราตรวจสอบว่าชื่อคอลัมน์ใดบ้างที่มีอยู่ใน filtered_dataset ดังนั้นโค้ด “filtered_dataset.column_names” จะให้รายละเอียดข้อกำหนดของเรา

บรรทัดที่ 22 และ 23: ในบรรทัดเหล่านี้ เรากรองคอลัมน์ 'train' ของชุดข้อมูล filtered_dataset และพิมพ์จำนวนทั้งหมด (ความยาว) ของคอลัมน์ train

บรรทัดที่ 26: ในบรรทัดสุดท้ายนี้ เราพิมพ์ผลลัพธ์จากบรรทัดที่ 23

Filter() พร้อมดัชนี

filter() วิธีการยังสามารถใช้กับดัชนีที่เห็นในโหมด select() แต่สำหรับสิ่งนั้น เราต้องพูดถึงว่าต้องระบุคีย์เวิร์ด “with_indices=true” ภายนอกเมธอด filter() ดังที่แสดงในตัวอย่างต่อไปนี้:

Odd_dataset = ชุดข้อมูล กรอง ( แลมบ์ดา ตัวอย่าง , idx: idx % 2 != 0 , with_indices = จริง )

พิมพ์ ( เท่านั้น ( Odd_dataset ) )

ในตัวอย่างนี้ เราใช้เมธอด filter() เพื่อกรองข้อมูลที่จำเป็นจากชุดข้อมูล รวมถึงเฉพาะแถวที่เป็นเลขคี่

รายละเอียดทั้งหมดของแต่ละพารามิเตอร์ของเมธอด filter() มีอยู่ที่นี่ ลิงค์ .

บทสรุป

ไลบรารีชุดข้อมูล Hugging Face มอบชุดเครื่องมือที่มีประสิทธิภาพและใช้งานง่ายเพื่อทำงานกับชุดข้อมูลต่างๆ ได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งในบริบทของการประมวลผลภาษาธรรมชาติ (NLP) และงานการเรียนรู้ของเครื่อง ฟังก์ชัน filter() ที่นำเสนอในโปรแกรมช่วยให้นักวิจัยและผู้ปฏิบัติงานสามารถดึงข้อมูลชุดย่อยที่เกี่ยวข้องโดยการกำหนดเกณฑ์การกรองที่ผู้ใช้กำหนด การใช้ฟังก์ชันนี้ทำให้ผู้ใช้สามารถสร้างชุดข้อมูลใหม่ที่ตรงตามเงื่อนไขที่กำหนด เช่น การรักษาความรู้สึกเชิงบวกในการวิจารณ์ภาพยนตร์ หรือการดึงข้อมูลข้อความที่เฉพาะเจาะจงได้อย่างง่ายดาย

การสาธิตทีละขั้นตอนนี้แสดงให้เห็นว่าการโหลดชุดข้อมูล การใช้ฟังก์ชันตัวกรองแบบกำหนดเอง และการเข้าถึงข้อมูลที่กรองนั้นง่ายดายเพียงใด นอกจากนี้ ความยืดหยุ่นของพารามิเตอร์ฟังก์ชันช่วยให้สามารถดำเนินการกรองแบบกำหนดเองได้ รวมถึงการรองรับการประมวลผลหลายรายการสำหรับชุดข้อมูลขนาดใหญ่ ด้วยไลบรารีชุดข้อมูล Hugging Face ผู้ใช้สามารถปรับปรุงข้อมูลของตนได้