วิธีเชื่อมต่อชุดข้อมูลใน Hugging Face

Withi Cheuxm Tx Chud Khxmul Ni Hugging Face



ไลบรารี “ชุดข้อมูล” จาก Hugging Face มอบวิธีที่สะดวกในการทำงานและจัดการชุดข้อมูลสำหรับงานการประมวลผลภาษาธรรมชาติ ฟังก์ชั่นที่มีประโยชน์อย่างหนึ่งที่ไลบรารีนำเสนอคือ concatenate_datasets() ซึ่งช่วยให้คุณสามารถเชื่อมต่อชุดข้อมูลหลายชุดให้เป็นชุดข้อมูลเดียวได้ ต่อไปนี้เป็นภาพรวมโดยย่อของฟังก์ชัน concatenate_datasets() และวิธีการใช้งาน

เชื่อมต่อชุดข้อมูล()

คำอธิบาย:

ไลบรารี “ชุดข้อมูล” ของ Hugging Face มีฟังก์ชัน concatenate_datasets() ใช้เพื่อเชื่อมชุดข้อมูลหลายชุดเข้าด้วยกัน โดยรวมเป็นชุดข้อมูลเดียวตามแกนที่ระบุ ฟังก์ชันนี้มีประโยชน์อย่างยิ่งเมื่อคุณมีชุดข้อมูลหลายชุดที่ใช้โครงสร้างเดียวกัน และคุณต้องการรวมชุดข้อมูลเหล่านั้นเป็นชุดข้อมูลแบบรวมเพื่อการประมวลผลและการวิเคราะห์เพิ่มเติม







ไวยากรณ์:



จาก ชุดข้อมูล นำเข้า concatenate_datasets

concatenated_dataset = concatenate_datasets ( ชุดข้อมูล , แกน = 0 , ข้อมูล = ไม่มี )

พารามิเตอร์:

ชุดข้อมูล (รายการชุดข้อมูล): รายการชุดข้อมูลที่คุณต้องการเชื่อมต่อ ชุดข้อมูลเหล่านี้ควรมีคุณสมบัติที่เข้ากันได้ ซึ่งหมายความว่ามีสคีมา ชื่อคอลัมน์ และประเภทข้อมูลเหมือนกัน



แกน (int, ตัวเลือก, ค่าเริ่มต้น=0): แกนที่ควรดำเนินการต่อข้อมูล สำหรับชุดข้อมูล NLP ส่วนใหญ่ จะใช้ค่าเริ่มต้นเป็น 0 ซึ่งหมายความว่าชุดข้อมูลจะต่อกันในแนวตั้ง หากคุณตั้งค่า axis=1 ชุดข้อมูลจะต่อกันในแนวนอน โดยถือว่ามีคอลัมน์ที่แตกต่างกันเป็นคุณลักษณะ





ข้อมูล (datasets.DatasetInfo, ตัวเลือก): ข้อมูลเกี่ยวกับชุดข้อมูลที่ต่อกัน หากไม่ได้ระบุ ข้อมูลจะถูกอนุมานจากชุดข้อมูลแรกในรายการ

ผลตอบแทน:

concatenated_dataset (ชุดข้อมูล): ชุดข้อมูลผลลัพธ์หลังจากเชื่อมต่อชุดข้อมูลอินพุตทั้งหมดเข้าด้วยกัน



ตัวอย่าง:

# ขั้นตอนที่ 1: ติดตั้งไลบรารีชุดข้อมูล

# คุณสามารถติดตั้งได้โดยใช้ pip:

# !pip ติดตั้งชุดข้อมูล

# ขั้นตอนที่ 2: นำเข้าไลบรารีที่จำเป็น

จาก ชุดข้อมูล นำเข้า load_dataset , concatenate_datasets

# ขั้นตอนที่ 3: โหลดชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDb

# เราจะใช้ชุดข้อมูล IMDb สองชุด ชุดหนึ่งสำหรับการตรวจสอบเชิงบวก

#และอีกรายการสำหรับคำวิจารณ์เชิงลบ

# โหลด 2,500 บทวิจารณ์เชิงบวก

ชุดข้อมูล_pos = load_dataset ( 'ไอเอ็มดีบี' , แยก = 'รถไฟ[:2500]' )

# โหลดบทวิจารณ์เชิงลบ 2,500 รายการ

ชุดข้อมูล_neg = load_dataset ( 'ไอเอ็มดีบี' , แยก = 'รถไฟ[-2500:]' )

# ขั้นตอนที่ 4: เชื่อมต่อชุดข้อมูลเข้าด้วยกัน

# เราเชื่อมชุดข้อมูลทั้งสองเข้าด้วยกันตาม axis=0 ตามที่พวกเขามี

สคีมาเดียวกัน ( คุณสมบัติเดียวกัน ) .

concatenated_dataset = concatenate_datasets ( [ ชุดข้อมูล_pos , ชุดข้อมูล_neg ] )

# ขั้นตอนที่ 5: วิเคราะห์ชุดข้อมูลที่ต่อกัน

# เพื่อความง่าย ลองนับจำนวนบวกและลบกันดีกว่า

# บทวิจารณ์ในชุดข้อมูลที่ต่อกัน

num_positive_reviews = ผลรวม ( 1 สำหรับ ฉลาก ใน

concatenated_dataset [ 'ฉลาก' ] ถ้า ฉลาก == 1 )

num_negative_reviews = ผลรวม ( 1 สำหรับ ฉลาก ใน

concatenated_dataset [ 'ฉลาก' ] ถ้า ฉลาก == 0 )

# ขั้นตอนที่ 6: แสดงผล

พิมพ์ ( 'จำนวนบทวิจารณ์เชิงบวก:' , num_positive_reviews )

พิมพ์ ( 'จำนวนบทวิจารณ์เชิงลบ:' , num_negative_reviews )

# ขั้นตอนที่ 7: พิมพ์บทวิจารณ์ตัวอย่างบางส่วนจากชุดข้อมูลที่ต่อกัน

พิมพ์ ( ' \n ตัวอย่างบทวิจารณ์บางส่วน:' )

สำหรับ ฉัน ใน พิสัย ( 5 ) : :

พิมพ์ ( 'ตรวจสอบ {i + 1}: {concatenated_dataset['text'][i]}' )

เอาท์พุท:

ต่อไปนี้เป็นคำอธิบายสำหรับโปรแกรมไลบรารี “ชุดข้อมูล” ของ Hugging Face ที่เชื่อมชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDb สองชุดเข้าด้วยกัน ซึ่งจะอธิบายวัตถุประสงค์ของโปรแกรม การใช้งาน และขั้นตอนที่เกี่ยวข้องกับโค้ด

เราจะให้คำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับแต่ละขั้นตอนในโค้ด:

# ขั้นตอนที่ 1: นำเข้าไลบรารีที่จำเป็น

จาก ชุดข้อมูล นำเข้า load_dataset , concatenate_datasets

ในขั้นตอนนี้ เราจะนำเข้าไลบรารีที่จำเป็นสำหรับโปรแกรม เราจำเป็นต้องมีฟังก์ชัน “load_dataset” เพื่อโหลดชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDb และ “concatenate_datasets” เพื่อเชื่อมต่อเข้าด้วยกันในภายหลัง

# ขั้นตอนที่ 2: โหลดชุดข้อมูลรีวิวภาพยนตร์ IMDb

# โหลด 2,500 บทวิจารณ์เชิงบวก

ชุดข้อมูล_pos = load_dataset ( 'ไอเอ็มดีบี' , แยก = 'รถไฟ[:2500]' )

# โหลดบทวิจารณ์เชิงลบ 2,500 รายการ

ชุดข้อมูล_neg = load_dataset ( 'ไอเอ็มดีบี' , แยก = 'รถไฟ[-2500:]' )

ที่นี่เราใช้ฟังก์ชัน “load_dataset” เพื่อดึงข้อมูลชุดย่อยสองชุดของชุดข้อมูล IMDb “dataset_pos” มีบทวิจารณ์เชิงบวก 2,500 รายการ และ “dataset_pos” มีบทวิจารณ์เชิงลบ 2,500 รายการ เราใช้พารามิเตอร์ split เพื่อระบุช่วงของตัวอย่างที่จะโหลด ซึ่งช่วยให้เราสามารถเลือกชุดย่อยของชุดข้อมูลทั้งหมดได้

# ขั้นตอนที่ 3: เชื่อมต่อชุดข้อมูลเข้าด้วยกัน

concatenated_dataset = concatenate_datasets ( [ ชุดข้อมูล_pos , ชุดข้อมูล_neg ] )

ในขั้นตอนนี้ เราจะเชื่อมชุดย่อยสองชุดของชุดข้อมูล IMDb เข้าด้วยกันเป็นชุดข้อมูลเดียวที่เรียกว่า “concatenated_dataset” เราใช้ฟังก์ชัน 'concatenate_datasets' และส่งผ่านรายการที่มีชุดข้อมูล 2 ชุดที่จะต่อกัน เนื่องจากชุดข้อมูลทั้งสองชุดมีคุณสมบัติเหมือนกัน เราจึงต่อเข้าด้วยกันตาม axis=0 ซึ่งหมายความว่าแถวจะซ้อนกันอยู่ด้านบนสุดของกันและกัน

# ขั้นตอนที่ 4: วิเคราะห์ชุดข้อมูลที่ต่อกัน

num_positive_reviews = ผลรวม ( 1 สำหรับ ฉลาก ใน

concatenated_dataset [ 'ฉลาก' ] ถ้า ฉลาก == 1 )

num_negative_reviews = ผลรวม ( 1 สำหรับ ฉลาก ใน

concatenated_dataset [ 'ฉลาก' ] ถ้า ฉลาก == 0 )

ที่นี่ เราทำการวิเคราะห์ชุดข้อมูลที่ต่อกันอย่างง่ายๆ เราใช้รายการความเข้าใจร่วมกับฟังก์ชัน 'ผลรวม' เพื่อนับจำนวนรีวิวเชิงบวกและเชิงลบ เราย้ำผ่าน label” ของ “concatenated_dataset” และเพิ่มจำนวนเมื่อใดก็ตามที่เราพบป้ายกำกับที่เป็นบวก (1) หรือป้ายกำกับเชิงลบ (0)

# ขั้นตอนที่ 5: แสดงผลลัพธ์

พิมพ์ ( 'จำนวนบทวิจารณ์เชิงบวก:' , num_positive_reviews )

พิมพ์ ( 'จำนวนบทวิจารณ์เชิงลบ:' , num_negative_reviews )

ในขั้นตอนนี้ เราจะพิมพ์ผลลัพธ์การวิเคราะห์ของเรา – จำนวนบทวิจารณ์เชิงบวกและเชิงลบในชุดข้อมูลที่ต่อกัน

# ขั้นตอนที่ 6: พิมพ์บทวิจารณ์ตัวอย่างบางส่วน

พิมพ์ ( ' \n ตัวอย่างบทวิจารณ์บางส่วน:' )

สำหรับ ฉัน ใน พิสัย ( 5 ) : :

พิมพ์ ( 'ตรวจสอบ {i + 1}: {concatenated_dataset['text'][i]}' )

สุดท้ายนี้ เราจะแสดงตัวอย่างบทวิจารณ์บางส่วนจากชุดข้อมูลที่ต่อกัน เราวนซ้ำห้าตัวอย่างแรกในชุดข้อมูลและพิมพ์เนื้อหาข้อความโดยใช้คอลัมน์ 'ข้อความ'

โค้ดนี้สาธิตตัวอย่างที่ตรงไปตรงมาของการใช้ไลบรารี “ชุดข้อมูล” ของ Hugging Face เพื่อโหลด เชื่อมต่อ และวิเคราะห์ชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDb โดยเน้นย้ำถึงความสามารถของห้องสมุดในการปรับปรุงการจัดการชุดข้อมูล NLP และแสดงศักยภาพในการสร้างแบบจำลองและแอปพลิเคชันการประมวลผลภาษาธรรมชาติที่ซับซ้อนยิ่งขึ้น

บทสรุป

โปรแกรม Python ที่ใช้ไลบรารี “ชุดข้อมูล” ของ Hugging Face สาธิตการเชื่อมโยงชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDb สองชุดได้สำเร็จ โดยการโหลดชุดย่อยของบทวิจารณ์ทั้งเชิงบวกและเชิงลบ โปรแกรมจะรวมบทวิจารณ์เหล่านั้นเป็นชุดข้อมูลเดียวโดยใช้ฟังก์ชัน concatenate_datasets() จากนั้นจะทำการวิเคราะห์ง่ายๆ โดยการนับจำนวนบทวิจารณ์เชิงบวกและเชิงลบในชุดข้อมูลที่รวมกัน

ไลบรารี “ชุดข้อมูล” ทำให้กระบวนการจัดการและจัดการชุดข้อมูล NLP ง่ายขึ้น ทำให้เป็นเครื่องมือที่ทรงพลังสำหรับนักวิจัย นักพัฒนา และผู้ปฏิบัติงาน NLP ด้วยอินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้และฟังก์ชันการทำงานที่ครอบคลุม ไลบรารีช่วยให้สามารถประมวลผลข้อมูลล่วงหน้า การสำรวจ และการแปลงข้อมูลได้อย่างง่ายดาย โปรแกรมที่แสดงในเอกสารนี้ทำหน้าที่เป็นตัวอย่างในทางปฏิบัติของวิธีการใช้ประโยชน์จากไลบรารีเพื่อปรับปรุงการต่อข้อมูลและงานการวิเคราะห์

ในสถานการณ์จริง โปรแกรมนี้สามารถใช้เป็นรากฐานสำหรับงานประมวลผลภาษาธรรมชาติที่ซับซ้อนมากขึ้น เช่น การวิเคราะห์ความรู้สึก การจำแนกข้อความ และการสร้างแบบจำลองภาษา การใช้ไลบรารี “ชุดข้อมูล” นักวิจัยและนักพัฒนาสามารถจัดการชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ อำนวยความสะดวกในการทดลอง และเร่งการพัฒนาแบบจำลอง NLP ที่ล้ำสมัย โดยรวมแล้ว ไลบรารี “ชุดข้อมูล” ของ Hugging Face ถือเป็นทรัพย์สินที่สำคัญในการแสวงหาความก้าวหน้าในการประมวลผลและทำความเข้าใจภาษาธรรมชาติ