Phương thức ôm mặt Filter()

Phuong Thuc Om Mat Filter



Ôm mặt có một số mô hình và bộ dữ liệu xử lý ngôn ngữ tự nhiên (NLP). Những bộ dữ liệu khổng lồ này chứa nhiều thông tin giúp đào tạo mô hình một cách chính xác. Tuy nhiên, đôi khi chúng ta không cần toàn bộ tập dữ liệu vì chúng ta chỉ cần một phần nhỏ trong số đó để đáp ứng nhu cầu hiện tại. Nếu chúng ta muốn sử dụng cùng một tập dữ liệu như thường lệ với tất cả thông tin, thì việc đào tạo và tối ưu hóa mô hình sẽ mất rất nhiều thời gian, điều này thật lãng phí thời gian.

Vì vậy, chúng tôi cần một số loại phương pháp hoặc gói có thể trích xuất thông tin liên quan từ bộ dữ liệu. Bằng ngôn ngữ đơn giản, chúng tôi có thể nói rằng chúng tôi cần một tùy chọn bộ lọc bổ sung để lọc các tập dữ liệu theo yêu cầu của chúng tôi.

Ôm mặt cung cấp các tùy chọn khác nhau để lọc tập dữ liệu giúp người dùng tạo tập dữ liệu tùy chỉnh chỉ chứa các ví dụ hoặc thông tin đáp ứng các điều kiện cụ thể.







Phương thức chọn()

Phương thức này hoạt động trên một danh sách các chỉ mục, nghĩa là chúng ta phải xác định một danh sách. Trong danh sách đó, chúng ta phải đề cập đến tất cả các giá trị chỉ mục của các hàng mà chúng ta muốn trích xuất. Nhưng phương pháp này chỉ hoạt động với các tập dữ liệu nhỏ chứ không áp dụng cho các tập dữ liệu lớn, vì chúng tôi không thể xem toàn bộ tập dữ liệu nếu nó tính bằng GB (giga byte) hoặc TB (tera byte).



Ví dụ :

tập dữ liệu mới = tập dữ liệu. lựa chọn ( [ 0 , mười một , hai mươi mốt , Bốn năm , năm mươi , 55 ] )

in ( chỉ một ( tập dữ liệu mới ) )

Trong ví dụ này, chúng tôi đã sử dụng phương pháp “chọn” để lọc thông tin cần thiết từ tập dữ liệu.



Phương thức Filter()

Phương thức filter() khắc phục các vấn đề của quy trình select() vì không có điều kiện cụ thể. Phương thức filter() trả về tất cả các hàng khớp với một tình huống hoặc điều kiện cụ thể.





Ví dụ: Chúng tôi lưu chương trình Python này với tên “test.py”.

từ bộ dữ liệu nhập khẩu tập dữ liệu tải

# Bước 1: Load data
tập dữ liệu = tập dữ liệu tải ( 'imdb' )

# Bước 2: Xác định hàm lọc
chắc chắn custom_filter ( ví dụ ) :
'''
Chức năng lọc tùy chỉnh để giữ lại các mẫu có giá trị dương
tình cảm (nhãn == 1).
'''

trở lại ví dụ [ 'nhãn' ] == 1

# Bước 3: Áp dụng bộ lọc để tạo tập dữ liệu được lọc mới
tập dữ liệu đã lọc = tập dữ liệu. lọc ( custom_filter )

# Bước 4: Kiểm tra tên cột có sẵn trong tập dữ liệu đã lọc
in ( 'Các cột có sẵn trong tập dữ liệu đã lọc:' ,
bộ dữ liệu đã lọc. tên_cột )

# Bước 5: Truy cập thông tin từ tập dữ liệu đã lọc
đã lọc_examples = tập dữ liệu đã lọc [ 'xe lửa' ]
num_filtered_examples = chỉ một ( đã lọc_examples )

# Bước 6: In tổng số mẫu đã lọc
in ( 'Tổng số ví dụ đã lọc:' , num_filtered_examples )

Đầu ra:



Giải trình:

Dòng 1: Chúng tôi nhập gói Load_dataset được yêu cầu từ bộ dữ liệu.

Dòng 4: Chúng tôi tải tập dữ liệu “imdb” bằng cách sử dụng Load_dataset.

Dòng 7 đến 12: Chúng tôi xác định chức năng lọc tùy chỉnh custom_filter để giữ các ví dụ có cảm xúc tích cực (nhãn == 1). Hàm này chỉ trả về những hàng có giá trị nhãn là 1.

Dòng 15: Dòng này cho biết tập dữ liệu có dữ liệu đánh giá phim “imdb”. Bây giờ chúng tôi áp dụng chức năng lọc cho cơ sở dữ liệu này để tách các đánh giá tích cực khỏi cơ sở dữ liệu được lưu trữ thêm trong “filtered_dataset”.

Dòng 18 và 19: Bây giờ, chúng tôi kiểm tra tên cột nào có sẵn trong bộ lọc_dataset. Vì vậy, mã “filtered_dataset.column_names” cung cấp chi tiết về các yêu cầu của chúng tôi.

Dòng 22 và 23: Trong những dòng này, chúng tôi lọc cột “train” của bộ lọc_dataset và in tổng số (chiều dài) của cột train.

Dòng 26: Ở dòng cuối cùng này, chúng ta in kết quả từ dòng số 23.

Filter() với các chỉ số

Phương thức filter() cũng có thể được sử dụng với các chỉ mục như trong chế độ select(). Nhưng để làm được điều đó, chúng ta phải đề cập rằng từ khóa “with_indices=true” phải được chỉ định bên ngoài phương thức filter() như trong ví dụ sau:

tập dữ liệu lẻ = tập dữ liệu. lọc ( lambda ví dụ , idx: idx% 2 != 0 , với_chỉ số = ĐÚNG VẬY )

in ( chỉ một ( tập dữ liệu lẻ ) )

Trong ví dụ này, chúng tôi đã sử dụng phương thức filter() để lọc thông tin cần thiết từ tập dữ liệu, chỉ bao gồm những hàng lẻ.

Bạn có thể tìm thấy chi tiết đầy đủ về từng tham số của phương thức filter() tại đây liên kết .

Phần kết luận

Thư viện tập dữ liệu Ôm mặt cung cấp bộ công cụ mạnh mẽ và thân thiện với người dùng để làm việc hiệu quả với nhiều tập dữ liệu khác nhau, đặc biệt là trong bối cảnh Xử lý ngôn ngữ tự nhiên (NLP) và các tác vụ học máy. Hàm filter() được trình bày trong chương trình cho phép các nhà nghiên cứu và người thực hành trích xuất các tập hợp con dữ liệu có liên quan bằng cách xác định tiêu chí lọc do người dùng xác định. Bằng cách sử dụng chức năng này, người dùng có thể dễ dàng tạo các tập dữ liệu mới đáp ứng các điều kiện cụ thể như duy trì cảm xúc tích cực trong các bài đánh giá phim hoặc trích xuất dữ liệu văn bản cụ thể.

Trình diễn từng bước này minh họa việc tải tập dữ liệu, áp dụng các chức năng lọc tùy chỉnh và truy cập dữ liệu đã lọc dễ dàng như thế nào. Ngoài ra, tính linh hoạt của các tham số chức năng cho phép thực hiện các thao tác lọc tùy chỉnh, bao gồm hỗ trợ xử lý nhiều lần cho các tập dữ liệu lớn. Với thư viện tập dữ liệu Ôm mặt, người dùng có thể sắp xếp hợp lý dữ liệu của mình.