Cách thực hiện phân loại văn bản bằng Transformers

Cach Thuc Hien Phan Loai Van Ban Bang Transformers



Trong thời đại này, Transformers là những mô hình mạnh mẽ nhất đã mang lại kết quả tốt nhất trong nhiều hoạt động NLP (Xử lý ngôn ngữ tự nhiên). Ban đầu, nó được sử dụng cho các nhiệm vụ mô hình hóa ngôn ngữ bao gồm tạo và phân loại văn bản, dịch máy, v.v. Nhưng hiện tại, nó còn được sử dụng để nhận dạng đối tượng, phân loại hình ảnh và nhiều tác vụ thị giác máy tính khác.

Trong hướng dẫn này, chúng tôi sẽ cung cấp quy trình thực hiện phân loại văn bản bằng Transformers.







Làm cách nào để thực hiện phân loại văn bản bằng Transformers?

Để thực hiện phân loại văn bản bằng Transformers, trước hết hãy cài đặt “ máy biến áp ” thư viện bằng cách thực hiện lệnh được cung cấp:



! pip cài đặt máy biến áp


Như bạn có thể thấy, thư viện chỉ định đã được cài đặt thành công:




Sau đó, nhập “ đường ống ' từ ' máy biến áp ' thư viện:





từ đường ống nhập khẩu máy biến áp


Ở đây, “ đường ống ” sẽ bao gồm nhiệm vụ NLP mà chúng tôi cần thực hiện và mô hình máy biến áp mong muốn cho hoạt động này cùng với mã thông báo.

Ghi chú: Trình mã thông báo được sử dụng để thực hiện xử lý văn bản nhằm cung cấp đầu vào cho mô hình bằng cách tách văn bản thành các mã thông báo.



Sau đó, sử dụng “ đường ống() ” chức năng và chuyển nó vào “ phân loại không bắn ” như một lập luận. Tiếp theo, chuyển một tham số khác là mô hình của chúng tôi. Chúng tôi đang sử dụng “ của Facebook BART “Mô hình máy biến áp. Ở đây, chúng tôi không sử dụng mã thông báo vì nó có thể được mô hình đã chỉ định tự động suy ra:

text_classifier = đường dẫn ( 'phân loại không bắn' , người mẫu = 'facebook/bart-large-mnli' )


Bây giờ hãy khai báo “ thứ tự ” biến chứa văn bản đầu vào của chúng ta cần được phân loại. Sau đó, chúng tôi cung cấp các danh mục mà chúng tôi muốn phân loại văn bản và lưu trong phần “ phòng thí nghiệm ” được gọi là nhãn:

thứ tự = 'Hiệu đính và chỉnh sửa là những thành phần cần thiết để đảm bảo nội dung rõ ràng, mạch lạc và không có lỗi'
phòng thí nghiệm = [ 'cập nhật' , 'sai lầm' , 'quan trọng' , 'xác minh' ]


Cuối cùng, chạy quy trình cùng với đầu vào:

phân loại văn bản ( thứ tự , phòng thí nghiệm )


Sau khi thực hiện quy trình, như bạn có thể thấy mô hình dự đoán trình tự được cung cấp của chúng tôi sẽ được phân loại:


Thông tin thêm: Nếu bạn muốn tăng tốc hiệu suất của mô hình, bạn cần sử dụng GPU. Nếu có, thì với mục đích đó, bạn có thể chỉ định một đối số thiết bị cho đường dẫn và đặt nó thành “ 0 ” để sử dụng GPU.

Nếu bạn muốn phân loại văn bản trên nhiều câu lệnh văn bản/trình tự đầu vào thì bạn có thể thêm chúng vào danh sách và chuyển nó làm đầu vào cho quy trình. Với mục đích đó, hãy xem đoạn mã:

thứ tự = [ 'Hiệu đính và chỉnh sửa là những thành phần cần thiết để đảm bảo nội dung rõ ràng, mạch lạc và không có lỗi' ,
'Trong thời đại hiện đại này, tối ưu hóa SEO là điều cần thiết để các bài viết có thứ hạng tốt và tiếp cận được nhiều đối tượng hơn' ]

phân loại văn bản ( thứ tự , phòng thí nghiệm )


đầu ra


Đó là nó! Chúng tôi đã biên soạn cách dễ nhất để thực hiện phân loại văn bản bằng Transformers.

Phần kết luận

Transformers được sử dụng để thực hiện các tác vụ mô hình hóa ngôn ngữ, chẳng hạn như tạo văn bản, phân loại văn bản và dịch máy, cũng như các tác vụ thị giác máy tính bao gồm nhận dạng đối tượng và phân loại hình ảnh. Trong hướng dẫn này, chúng tôi đã minh họa quy trình thực hiện phân loại văn bản bằng Transformers.