Làm cách nào để sử dụng Tokenizers trong Máy biến áp ôm mặt?

Lam Cach Nao De Su Dung Tokenizers Trong May Bien Ap Om Mat



Xử lý ngôn ngữ tự nhiên (NLP) hoạt động ở dạng thô của dữ liệu. Các mô hình học máy được đào tạo trên dữ liệu phức tạp nhưng chúng không thể hiểu được dữ liệu thô. Dạng dữ liệu thô này phải có một số giá trị số liên quan đến nó. Giá trị này xác định giá trị và tầm quan trọng của từ trong dữ liệu và trên cơ sở đó, các phép tính được thực hiện.

Bài viết này cung cấp hướng dẫn từng bước về cách sử dụng Tokenizers trong Máy biến áp ôm mặt.

Tokenizer là gì?

Tokenizer là một khái niệm quan trọng của NLP và mục tiêu chính của nó là dịch văn bản thô thành số. Có nhiều kỹ thuật và phương pháp khác nhau được sử dụng cho mục đích này. Tuy nhiên, điều đáng chú ý là mỗi kỹ thuật phục vụ một mục đích cụ thể.
Làm cách nào để sử dụng Tokenizers trong Transformers ôm mặt?







Làm cách nào để sử dụng Tokenizers trong Transformers ôm mặt?

Thư viện mã thông báo phải được cài đặt trước khi sử dụng và nhập các chức năng từ nó. Sau đó, huấn luyện mô hình bằng AutoTokenizer, rồi cung cấp thông tin đầu vào để thực hiện mã thông báo.



Ôm mặt giới thiệu ba loại Token hóa chính được đưa ra dưới đây:



  • Mã thông báo dựa trên từ
  • Tokenizer dựa trên ký tự
  • Mã thông báo dựa trên từ khóa

Dưới đây là hướng dẫn từng bước để sử dụng Tokenizers trong Transformers:





Bước 1: Cài đặt máy biến áp
Để cài đặt máy biến áp, sử dụng lệnh pip trong lệnh sau:

! pip cài đặt máy biến áp



Bước 2: Nhập lớp
Từ máy biến áp, nhập khẩu đường ống , Và AutoModelForSequencePhân loại thư viện để thực hiện phân loại:

từ đường ống nhập khẩu máy biến áp, AutoModelForSequenceClassification

Bước 3: Nhập mô hình
Các ' AutoModelForSequencePhân loại ” là một phương thức thuộc về Auto-Class để mã hóa. Các from_pretrain() phương thức được sử dụng để trả về lớp mô hình chính xác dựa trên loại mô hình.

Ở đây chúng tôi đã cung cấp tên của mô hình trong phần “ tên mẫu ' Biến đổi:

tên mẫu = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( tên mẫu )

Bước 4: Nhập AutoTokenizer
Cung cấp lệnh sau để tạo mã thông báo bằng cách chuyển “ tên mẫu ” như lập luận:

từ máy biến áp nhập khẩu AutoTokenizer

mã thông báo được tạo =AutoTokenizer.from_pretraining ( tên mẫu )

Bước 5: Tạo mã thông báo
Bây giờ, chúng ta sẽ tạo mã thông báo trên một câu “Tôi thích đồ ăn ngon” bằng cách sử dụng “ mã thông báo được tạo ' Biến đổi:

từ =tạo mã thông báo ( 'Tôi thích đồ ăn ngon' )
in ( từ )

Đầu ra được đưa ra như sau:

Mã ở trên Công ty Google được đưa ra ở đây.

Phần kết luận

Để sử dụng Mã thông báo trong Ôm mặt, hãy cài đặt thư viện bằng lệnh pip, đào tạo mô hình bằng AutoTokenizer, sau đó cung cấp đầu vào để thực hiện mã thông báo. Bằng cách sử dụng mã thông báo, gán trọng số cho các từ dựa trên đó chúng được sắp xếp theo trình tự để giữ lại nghĩa của câu. Điểm này cũng xác định giá trị của chúng để phân tích. Bài viết này hướng dẫn chi tiết cách sử dụng Tokenizers trong Hugging Face Transformers.