Cách sử dụng bộ dữ liệu ôm mặt

Cach Su Dung Bo Du Lieu Om Mat



Khả năng ứng dụng và sử dụng của các mô hình Machine Learning được kiểm tra trên dữ liệu. Độ tin cậy của các thử nghiệm phụ thuộc rất nhiều vào số lượng và chất lượng của dữ liệu mà các mô hình này được áp dụng. Bản thân nó là một nhiệm vụ hoàn chỉnh để tạo, lấy và làm sạch một tập dữ liệu lớn phù hợp để kiểm tra “ Xử lý ngôn ngữ tự nhiên (NLP) ”Mô hình học máy.

Ôm mặt cung cấp một giải pháp gọn gàng cho vấn đề này với thư viện bộ dữ liệu đặc biệt lớn để bạn lựa chọn và tìm ra giải pháp hoàn toàn phù hợp với yêu cầu của bạn. Tại đây, chúng tôi sẽ chỉ cho bạn cách tìm tập dữ liệu lý tưởng và chuẩn bị nó để kiểm tra đầy đủ mô hình của bạn.







Làm cách nào để sử dụng bộ dữ liệu ôm mặt?

Chúng tôi sẽ chỉ cho bạn cách sử dụng Bộ dữ liệu ôm mặt bằng ví dụ về “ Truyện nhỏ ”Bộ dữ liệu từ Ôm Mặt.



Ví dụ

Bộ dữ liệu TinyStories có hơn 2 triệu hàng dữ liệu trong phần tàu và có hơn 2 nghìn lượt tải xuống trên nền tảng Ôm mặt. Chúng tôi sẽ sử dụng nó trong mã trong Google Colab được đưa ra bên dưới:



! píp cài đặt máy biến áp
! píp cài đặt bộ dữ liệu

từ tập dữ liệu nhập Load_dataset

tập dữ liệu = Load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
example_string = tập dữ liệu [ 'xe lửa' ] [ TinyStories_Story ] [ 'chữ' ]

in ( chuỗi_ví dụ )


Trong mã này, hãy xem xét các bước được nêu dưới đây:





Bước 01 : Bước đầu tiên là “ cài đặt ” của bộ dữ liệu máy biến áp.

Bước 02 : Tiếp theo, nhập tập dữ liệu cần thiết, “ Truyện nhỏ ” vào dự án của bạn.



Bước 03 : Tiếp theo, tải tập dữ liệu đã chọn bằng cách sử dụng nút “ tải_dataset() ' chức năng.

Bước 04 : Bây giờ, chúng tôi chỉ định số Câu chuyện mà chúng tôi muốn từ Bộ dữ liệu TinyStories. Chúng tôi đã chỉ định số 03 trong ví dụ mã của mình.

Bước 05 : Cuối cùng, chúng ta sẽ sử dụng phương thức “print()” để hiển thị kết quả.

đầu ra



Ghi chú: Mã và kết quả đầu ra cũng có thể được xem trực tiếp trong Google Colab của chúng tôi .

Phần kết luận

Bộ dữ liệu ôm mặt ” giúp người dùng kiểm tra các mô hình Machine Learning của họ trong khi nhập trực tiếp các tập dữ liệu lớn từ thư viện trực tuyến của họ một cách vô cùng hiệu quả. Do đó, việc áp dụng thuật toán NLP đã trở nên dễ dàng và nhanh hơn khi các lập trình viên có thể kiểm tra dự án của họ dựa trên tập dữ liệu có cả chất lượng và số lượng.