Làm cách nào để áp dụng đường ống trên tập dữ liệu trong máy biến áp?

Lam Cach Nao De Ap Dung Duong Ong Tren Tap Du Lieu Trong May Bien Ap



Hàm pipe() là một phần không thể thiếu của thư viện Transformer. Phải mất một số đầu vào để chúng ta có thể xác định tác vụ suy luận, mô hình, cơ chế mã thông báo, v.v. Hàm pipe() được sử dụng chủ yếu để thực hiện các tác vụ NLP trên một hoặc một số văn bản. Nó thực hiện tiền xử lý đầu vào và xử lý hậu kỳ dựa trên mô hình để tạo ra đầu ra mà con người có thể đọc được và dự đoán chính xác với độ chính xác tối đa.

Bài viết này bao gồm các khía cạnh sau:







Thư viện tập dữ liệu khuôn mặt ôm là gì?

Thư viện tập dữ liệu Ôm mặt là một API chứa một số tập dữ liệu công khai và cung cấp cách dễ dàng để tải chúng xuống. Thư viện này có thể được nhập và cài đặt vào ứng dụng bằng cách sử dụng lệnh “ pip ' yêu cầu. Để xem phần minh họa thực tế cách tải xuống và cài đặt bộ dữ liệu của thư viện Ôm Mặt, hãy truy cập vào đây Liên kết Google Colab. Bạn có thể tải xuống nhiều bộ dữ liệu từ Trung tâm dữ liệu ôm mặt.



Tìm hiểu thêm về chức năng của hàm pipe() bằng cách tham khảo bài viết này “ Làm cách nào để sử dụng hàm Pipeline() trong Transformers? ”.



Làm cách nào để áp dụng đường ống trên tập dữ liệu trong khuôn mặt ôm?

Ôm mặt cung cấp một số bộ dữ liệu công khai khác nhau có thể dễ dàng cài đặt bằng cách sử dụng mã một dòng. Trong bài viết này, chúng ta sẽ xem một minh họa thực tế về việc áp dụng quy trình cho các bộ dữ liệu này. Có hai cách để triển khai quy trình trên tập dữ liệu.





Cách 1: Sử dụng phương pháp lặp

Hàm pipe() cũng có thể được lặp qua tập dữ liệu và mô hình. Với mục đích này, hãy làm theo các bước được đề cập dưới đây:

Bước 1: Cài đặt thư viện Transformer

Để cài đặt thư viện Transformer, hãy cung cấp lệnh sau:



!pip cài đặt máy biến áp

Bước 2: Đường ống nhập khẩu

Chúng ta có thể nhập đường dẫn từ thư viện Transformer. Với mục đích này, hãy cung cấp lệnh sau:

từ đường ống nhập khẩu máy biến áp

Bước 3: Triển khai quy trình

Ở đây, hàm pipe() được triển khai trên mô hình “ gpt2 ”. Bạn có thể tải xuống các mô hình từ Trung tâm mô hình ôm mặt:

def imp_pipeline():
cho x trong phạm vi (1000):
mang lại f'Bộ dữ liệu triển khai{x}'


generate_pipeline=đường ống(model='gpt2', device=0)
gen_char= 0
cho đầu ra trong generate_pipeline(imp_pipeline()):
gen_char += len(output[0]['generated_text'])

Trong mã này, “ tạo_pipeline ” là một biến chứa hàm pipe() với model “ gpt2 ”. Khi nó được gọi với “ imp_pipeline() ”, nó tự động nhận dạng dữ liệu được tăng lên với phạm vi được chỉ định là 1000:

Điều này sẽ mất một thời gian để đào tạo. Liên kết đến Công ty Google cũng được đưa ra.

Phương pháp 2: Sử dụng Thư viện bộ dữ liệu

Trong phương pháp này, chúng tôi sẽ trình diễn cách triển khai quy trình bằng thư viện “bộ dữ liệu”:

Bước 1: Lắp đặt máy biến áp

Để cài đặt thư viện Transformer, hãy cung cấp lệnh sau:

!pip cài đặt máy biến áp

Bước 2: Cài đặt Thư viện tập dữ liệu

Như “ bộ dữ liệu ” Thư viện chứa tất cả các tập dữ liệu công khai, chúng ta có thể cài đặt nó bằng cách sử dụng lệnh sau. Bằng cách cài đặt “ bộ dữ liệu ” thư viện, chúng tôi có thể nhập trực tiếp bất kỳ tập dữ liệu nào bằng cách cung cấp tên của nó:

!pip cài đặt bộ dữ liệu

Bước 3: Đường ống dữ liệu

Để xây dựng quy trình trên tập dữ liệu, hãy sử dụng mã sau đây. KeyDataset là một tính năng chỉ xuất ra những giá trị mà người dùng quan tâm:

từ máy biến áp.pipelines.pt_utils nhập KeyDataset
từ đường ống nhập khẩu máy biến áp
từ tập dữ liệu nhập tải_dataset
gen_pipeline = pipe(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
Loaddataset = Load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', Split='validation[:10]') cho đầu ra ở dạng gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('In đầu ra ngay bây giờ')
in ('----------------')
in (đầu ra)

Đầu ra của đoạn mã trên được đưa ra dưới đây:

Đó là tất cả từ hướng dẫn này. Liên kết tới Công ty Google cũng được đề cập trong bài viết này

Phần kết luận

Để áp dụng các quy trình trên tập dữ liệu, chúng ta có thể lặp lại tập dữ liệu bằng cách sử dụng hàm pipe() hoặc sử dụng “ bộ dữ liệu ' thư viện. Ôm mặt cung cấp liên kết kho lưu trữ GitHub cho người dùng cho cả bộ dữ liệu và mô hình có thể được sử dụng dựa trên yêu cầu. Bài viết này đã cung cấp hướng dẫn toàn diện về cách áp dụng quy trình trên tập dữ liệu trong Transformers.