วิธีใช้ Tokenizers ใน Hugging Face Transformers

การประมวลผลภาษาธรรมชาติ (NLP) ทำงานในรูปแบบข้อมูลดิบ โมเดลการเรียนรู้ของเครื่องได้รับการฝึกฝนเกี่ยวกับข้อมูลที่ซับซ้อน แต่ไม่สามารถเข้าใจข้อมูลดิบได้ ข้อมูลในรูปแบบดิบนี้ต้องมีค่าตัวเลขเชื่อมโยงอยู่ด้วย ค่านี้จะกำหนดมูลค่าและความสำคัญของคำในข้อมูล และบนพื้นฐานนี้ การคำนวณจะดำเนินการ

บทความนี้ให้คำแนะนำทีละขั้นตอนเกี่ยวกับการใช้ Tokenizers ใน Hugging Face Transformers

Tokenizer คืออะไร?

Tokenizer เป็นแนวคิดที่สำคัญของ NLP และวัตถุประสงค์หลักคือการแปลข้อความดิบเป็นตัวเลข มีเทคนิคและวิธีการต่างๆ มากมายเพื่อจุดประสงค์นี้ อย่างไรก็ตาม เป็นที่น่าสังเกตว่าแต่ละเทคนิคมีจุดประสงค์เฉพาะ
จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร

จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร

ต้องติดตั้งไลบรารี tokenizer ก่อนจึงจะใช้งานและนำเข้าฟังก์ชันจากไลบรารีได้ หลังจากนั้น ให้ฝึกโมเดลโดยใช้ AutoTokenizer จากนั้นป้อนข้อมูลเพื่อทำการแปลงโทเค็น

Hugging Face แนะนำ Tokenization สามประเภทหลักซึ่งมีดังต่อไปนี้:

Tokenizer ที่ใช้คำ
Tokenizer ตามตัวละคร
Tokenizer ที่ใช้คำย่อย

คำแนะนำทีละขั้นตอนในการใช้ Tokenizers ใน Transformers:

ขั้นตอนที่ 1: ติดตั้ง Transformers
ในการติดตั้งหม้อแปลงไฟฟ้า ให้ใช้คำสั่ง pip ในคำสั่งต่อไปนี้:

! ปิ๊ป ติดตั้ง หม้อแปลงไฟฟ้า

ขั้นตอนที่ 2: นำเข้าคลาส
จากหม้อแปลงนำเข้า ไปป์ไลน์ , และ AutoModelForSequenceClassification ห้องสมุดเพื่อดำเนินการจำแนกประเภท:

จากไปป์ไลน์การนำเข้าหม้อแปลง AutoModelForSequenceClassification

ขั้นตอนที่ 3: นำเข้าโมเดล
“ AutoModelForSequenceClassification ” เป็นวิธีการที่เป็นของ Auto-Class สำหรับโทเค็น ที่ from_pretrained() วิธีการใช้เพื่อส่งคืนคลาสโมเดลที่ถูกต้องตามประเภทของโมเดล

ที่นี่เราได้ระบุชื่อของโมเดลไว้ใน ' ชื่อรุ่น ' ตัวแปร:

ชื่อรุ่น = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( ชื่อรุ่น )

ขั้นตอนที่ 4: นำเข้า AutoTokenizer
ระบุคำสั่งต่อไปนี้เพื่อสร้างโทเค็นโดยส่งผ่าน ' ชื่อรุ่น ” เป็นข้อโต้แย้ง:

จากหม้อแปลงนำเข้า AutoTokenizer

โทเค็นที่สร้างขึ้น =AutoTokenizer.from_pretrained ( ชื่อรุ่น )

ขั้นตอนที่ 5: สร้างโทเค็น
ตอนนี้เราจะสร้างโทเค็นในประโยค “ฉันชอบอาหารดีๆ” โดยใช้ “ โทเค็นที่สร้างขึ้น ' ตัวแปร:

คำ =สร้างโทเค็น ( 'ฉันชอบอาหารดีๆ' )
พิมพ์ ( คำ )

ผลลัพธ์จะได้รับดังนี้:

รหัสข้างต้น บริษัท กูเกิล มอบให้ที่นี่

บทสรุป

หากต้องการใช้ Tokenizer ใน Hugging Face ให้ติดตั้งไลบรารีโดยใช้คำสั่ง pip ฝึกโมเดลโดยใช้ AutoTokenizer จากนั้นจัดเตรียมอินพุตเพื่อทำการแปลงโทเค็น โดยใช้โทเค็นไนเซชัน กำหนดน้ำหนักให้กับคำตามลำดับที่เรียงลำดับเพื่อรักษาความหมายของประโยค คะแนนนี้ยังเป็นตัวกำหนดมูลค่าในการวิเคราะห์อีกด้วย บทความนี้เป็นคำแนะนำโดยละเอียดเกี่ยวกับวิธีใช้ Tokenizers ใน Hugging Face Transformers

วิธีใช้ Tokenizers ใน Hugging Face Transformers

Tokenizer คืออะไร?

จะใช้ Tokenizers ใน Hugging Face Transformers ได้อย่างไร

บทสรุป

หมวดหมู่

โพสต์ยอดนิยม

วิธีใช้ฟังก์ชัน preg_match_all() ใน PHP

JavaScript Date() ตัวสร้าง

มายเอสคิวแอล | ข้ามเข้าร่วม

Python bin () ฟังก์ชั่น

วิธีการติดตั้งเคอร์เนล JupyterHub JavaScript/Node.js เพื่อรันโค้ด JavaScript/Node.js บน Jupyter Notebooks

แอพ Feedback Hub คืออะไรและใช้งานอย่างไร

วิธีใช้คำสั่ง dig ใน Linux

วิธีใช้เบรกพอยต์และการสืบค้นสื่อด้วยคลิปพื้นหลังใน Tailwind

Icacls: สุดยอดคู่มือในการจัดการสิทธิ์ของไฟล์

องค์ประกอบ DOM “clientTop” ใน HTML มีความหมายอย่างไร

จะทำงานร่วมกับสาขาสาธารณะของพื้นที่เก็บข้อมูลสาธารณะได้อย่างไร

ทำความเข้าใจเกี่ยวกับฟังก์ชันของ Monostable Multivibrator

Windows: Grep เทียบเท่า

ตั้งค่าแอตทริบิวต์หลายรายการในองค์ประกอบโดยใช้ JavaScript

วิธีการเข้าถึงสภาพแวดล้อมใน C ++

ทำไมแล็ปท็อปของฉันไม่เชื่อมต่อกับ Mobile Hotspot?

วิธีการติดตั้งสภาพแวดล้อมเดสก์ท็อป GNOME บน Raspberry Pi

วิธีสร้างเว็บแอปแบบโต้ตอบด้วย Shiny ใน R

วิธีการติดตั้งเคอร์เนล TypeScript บน JupyterHub เพื่อเรียกใช้รหัส TypeScript บน Jupyter Notebooks

วิธีค้นหาแฟกทอเรียลใน MATLAB