วิธีใช้ Tokenizers ใน Hugging Face Transformers

Withi Chi Tokenizers Ni Hugging Face Transformers



การประมวลผลภาษาธรรมชาติ (NLP) ทำงานในรูปแบบข้อมูลดิบ โมเดลการเรียนรู้ของเครื่องได้รับการฝึกฝนเกี่ยวกับข้อมูลที่ซับซ้อน แต่ไม่สามารถเข้าใจข้อมูลดิบได้ ข้อมูลในรูปแบบดิบนี้ต้องมีค่าตัวเลขเชื่อมโยงอยู่ด้วย ค่านี้จะกำหนดมูลค่าและความสำคัญของคำในข้อมูล และบนพื้นฐานนี้ การคำนวณจะดำเนินการ

บทความนี้ให้คำแนะนำทีละขั้นตอนเกี่ยวกับการใช้ Tokenizers ใน Hugging Face Transformers

Tokenizer คืออะไร?

Tokenizer เป็นแนวคิดที่สำคัญของ NLP และวัตถุประสงค์หลักคือการแปลข้อความดิบเป็นตัวเลข มีเทคนิคและวิธีการต่างๆ มากมายเพื่อจุดประสงค์นี้ อย่างไรก็ตาม เป็นที่น่าสังเกตว่าแต่ละเทคนิคมีจุดประสงค์เฉพาะ
จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร







จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร

ต้องติดตั้งไลบรารี tokenizer ก่อนจึงจะใช้งานและนำเข้าฟังก์ชันจากไลบรารีได้ หลังจากนั้น ให้ฝึกโมเดลโดยใช้ AutoTokenizer จากนั้นป้อนข้อมูลเพื่อทำการแปลงโทเค็น



Hugging Face แนะนำ Tokenization สามประเภทหลักซึ่งมีดังต่อไปนี้:



  • Tokenizer ที่ใช้คำ
  • Tokenizer ตามตัวละคร
  • Tokenizer ที่ใช้คำย่อย

คำแนะนำทีละขั้นตอนในการใช้ Tokenizers ใน Transformers:





ขั้นตอนที่ 1: ติดตั้ง Transformers
ในการติดตั้งหม้อแปลงไฟฟ้า ให้ใช้คำสั่ง pip ในคำสั่งต่อไปนี้:

! ปิ๊ป ติดตั้ง หม้อแปลงไฟฟ้า



ขั้นตอนที่ 2: นำเข้าคลาส
จากหม้อแปลงนำเข้า ไปป์ไลน์ , และ AutoModelForSequenceClassification ห้องสมุดเพื่อดำเนินการจำแนกประเภท:

จากไปป์ไลน์การนำเข้าหม้อแปลง AutoModelForSequenceClassification

ขั้นตอนที่ 3: นำเข้าโมเดล
AutoModelForSequenceClassification ” เป็นวิธีการที่เป็นของ Auto-Class สำหรับโทเค็น ที่ from_pretrained() วิธีการใช้เพื่อส่งคืนคลาสโมเดลที่ถูกต้องตามประเภทของโมเดล

ที่นี่เราได้ระบุชื่อของโมเดลไว้ใน ' ชื่อรุ่น ' ตัวแปร:

ชื่อรุ่น = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( ชื่อรุ่น )

ขั้นตอนที่ 4: นำเข้า AutoTokenizer
ระบุคำสั่งต่อไปนี้เพื่อสร้างโทเค็นโดยส่งผ่าน ' ชื่อรุ่น ” เป็นข้อโต้แย้ง:

จากหม้อแปลงนำเข้า AutoTokenizer

โทเค็นที่สร้างขึ้น =AutoTokenizer.from_pretrained ( ชื่อรุ่น )

ขั้นตอนที่ 5: สร้างโทเค็น
ตอนนี้เราจะสร้างโทเค็นในประโยค “ฉันชอบอาหารดีๆ” โดยใช้ “ โทเค็นที่สร้างขึ้น ' ตัวแปร:

คำ =สร้างโทเค็น ( 'ฉันชอบอาหารดีๆ' )
พิมพ์ ( คำ )

ผลลัพธ์จะได้รับดังนี้:

รหัสข้างต้น บริษัท กูเกิล มอบให้ที่นี่

บทสรุป

หากต้องการใช้ Tokenizer ใน Hugging Face ให้ติดตั้งไลบรารีโดยใช้คำสั่ง pip ฝึกโมเดลโดยใช้ AutoTokenizer จากนั้นจัดเตรียมอินพุตเพื่อทำการแปลงโทเค็น โดยใช้โทเค็นไนเซชัน กำหนดน้ำหนักให้กับคำตามลำดับที่เรียงลำดับเพื่อรักษาความหมายของประโยค คะแนนนี้ยังเป็นตัวกำหนดมูลค่าในการวิเคราะห์อีกด้วย บทความนี้เป็นคำแนะนำโดยละเอียดเกี่ยวกับวิธีใช้ Tokenizers ใน Hugging Face Transformers