บทความนี้ให้คำแนะนำทีละขั้นตอนเกี่ยวกับการใช้ Tokenizers ใน Hugging Face Transformers
Tokenizer คืออะไร?
Tokenizer เป็นแนวคิดที่สำคัญของ NLP และวัตถุประสงค์หลักคือการแปลข้อความดิบเป็นตัวเลข มีเทคนิคและวิธีการต่างๆ มากมายเพื่อจุดประสงค์นี้ อย่างไรก็ตาม เป็นที่น่าสังเกตว่าแต่ละเทคนิคมีจุดประสงค์เฉพาะ
จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร
จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร
ต้องติดตั้งไลบรารี tokenizer ก่อนจึงจะใช้งานและนำเข้าฟังก์ชันจากไลบรารีได้ หลังจากนั้น ให้ฝึกโมเดลโดยใช้ AutoTokenizer จากนั้นป้อนข้อมูลเพื่อทำการแปลงโทเค็น
Hugging Face แนะนำ Tokenization สามประเภทหลักซึ่งมีดังต่อไปนี้:
- Tokenizer ที่ใช้คำ
- Tokenizer ตามตัวละคร
- Tokenizer ที่ใช้คำย่อย
คำแนะนำทีละขั้นตอนในการใช้ Tokenizers ใน Transformers:
ขั้นตอนที่ 1: ติดตั้ง Transformers
ในการติดตั้งหม้อแปลงไฟฟ้า ให้ใช้คำสั่ง pip ในคำสั่งต่อไปนี้:
ขั้นตอนที่ 2: นำเข้าคลาส
จากหม้อแปลงนำเข้า ไปป์ไลน์ , และ AutoModelForSequenceClassification ห้องสมุดเพื่อดำเนินการจำแนกประเภท:
ขั้นตอนที่ 3: นำเข้าโมเดล
“ AutoModelForSequenceClassification ” เป็นวิธีการที่เป็นของ Auto-Class สำหรับโทเค็น ที่ from_pretrained() วิธีการใช้เพื่อส่งคืนคลาสโมเดลที่ถูกต้องตามประเภทของโมเดล
ที่นี่เราได้ระบุชื่อของโมเดลไว้ใน ' ชื่อรุ่น ' ตัวแปร:
ชื่อรุ่น = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( ชื่อรุ่น )
ขั้นตอนที่ 4: นำเข้า AutoTokenizer
ระบุคำสั่งต่อไปนี้เพื่อสร้างโทเค็นโดยส่งผ่าน ' ชื่อรุ่น ” เป็นข้อโต้แย้ง:
โทเค็นที่สร้างขึ้น =AutoTokenizer.from_pretrained ( ชื่อรุ่น )
ขั้นตอนที่ 5: สร้างโทเค็น
ตอนนี้เราจะสร้างโทเค็นในประโยค “ฉันชอบอาหารดีๆ” โดยใช้ “ โทเค็นที่สร้างขึ้น ' ตัวแปร:
พิมพ์ ( คำ )
ผลลัพธ์จะได้รับดังนี้:
รหัสข้างต้น บริษัท กูเกิล มอบให้ที่นี่
บทสรุป
หากต้องการใช้ Tokenizer ใน Hugging Face ให้ติดตั้งไลบรารีโดยใช้คำสั่ง pip ฝึกโมเดลโดยใช้ AutoTokenizer จากนั้นจัดเตรียมอินพุตเพื่อทำการแปลงโทเค็น โดยใช้โทเค็นไนเซชัน กำหนดน้ำหนักให้กับคำตามลำดับที่เรียงลำดับเพื่อรักษาความหมายของประโยค คะแนนนี้ยังเป็นตัวกำหนดมูลค่าในการวิเคราะห์อีกด้วย บทความนี้เป็นคำแนะนำโดยละเอียดเกี่ยวกับวิธีใช้ Tokenizers ใน Hugging Face Transformers