Bài viết này cung cấp hướng dẫn từng bước về cách sử dụng Tokenizers trong Máy biến áp ôm mặt.
Tokenizer là gì?
Tokenizer là một khái niệm quan trọng của NLP và mục tiêu chính của nó là dịch văn bản thô thành số. Có nhiều kỹ thuật và phương pháp khác nhau được sử dụng cho mục đích này. Tuy nhiên, điều đáng chú ý là mỗi kỹ thuật phục vụ một mục đích cụ thể.
Làm cách nào để sử dụng Tokenizers trong Transformers ôm mặt?
Làm cách nào để sử dụng Tokenizers trong Transformers ôm mặt?
Thư viện mã thông báo phải được cài đặt trước khi sử dụng và nhập các chức năng từ nó. Sau đó, huấn luyện mô hình bằng AutoTokenizer, rồi cung cấp thông tin đầu vào để thực hiện mã thông báo.
Ôm mặt giới thiệu ba loại Token hóa chính được đưa ra dưới đây:
- Mã thông báo dựa trên từ
- Tokenizer dựa trên ký tự
- Mã thông báo dựa trên từ khóa
Dưới đây là hướng dẫn từng bước để sử dụng Tokenizers trong Transformers:
Bước 1: Cài đặt máy biến áp
Để cài đặt máy biến áp, sử dụng lệnh pip trong lệnh sau:
Bước 2: Nhập lớp
Từ máy biến áp, nhập khẩu đường ống , Và AutoModelForSequencePhân loại thư viện để thực hiện phân loại:
Bước 3: Nhập mô hình
Các ' AutoModelForSequencePhân loại ” là một phương thức thuộc về Auto-Class để mã hóa. Các from_pretrain() phương thức được sử dụng để trả về lớp mô hình chính xác dựa trên loại mô hình.
Ở đây chúng tôi đã cung cấp tên của mô hình trong phần “ tên mẫu ' Biến đổi:
tên mẫu = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( tên mẫu )
Bước 4: Nhập AutoTokenizer
Cung cấp lệnh sau để tạo mã thông báo bằng cách chuyển “ tên mẫu ” như lập luận:
mã thông báo được tạo =AutoTokenizer.from_pretraining ( tên mẫu )
Bước 5: Tạo mã thông báo
Bây giờ, chúng ta sẽ tạo mã thông báo trên một câu “Tôi thích đồ ăn ngon” bằng cách sử dụng “ mã thông báo được tạo ' Biến đổi:
in ( từ )
Đầu ra được đưa ra như sau:
Mã ở trên Công ty Google được đưa ra ở đây.
Phần kết luận
Để sử dụng Mã thông báo trong Ôm mặt, hãy cài đặt thư viện bằng lệnh pip, đào tạo mô hình bằng AutoTokenizer, sau đó cung cấp đầu vào để thực hiện mã thông báo. Bằng cách sử dụng mã thông báo, gán trọng số cho các từ dựa trên đó chúng được sắp xếp theo trình tự để giữ lại nghĩa của câu. Điểm này cũng xác định giá trị của chúng để phân tích. Bài viết này hướng dẫn chi tiết cách sử dụng Tokenizers trong Hugging Face Transformers.