Gấu trúc Điền Nan bằng 0

Gau Truc Dien Nan Bang 0



Khoa học dữ liệu thường liên quan đến dữ liệu bị thiếu. Toàn bộ hàng có thể bị loại bỏ hoặc một giá trị có thể được thêm vào tổ hợp hàng-cột. Bỏ hàng / cột sẽ là vô lý vì nó loại bỏ một số liệu nhất định cho mỗi hàng. NaN, viết tắt của 'Not a Number', là một trong những cách điển hình để hiển thị một giá trị bị thiếu trong một tập hợp dữ liệu. Để có được kết quả như mong đợi, việc xử lý NaN là khá quan trọng. Vì vậy, hãy cùng tìm hiểu cách thay đổi các giá trị NaN trong một hàng hoặc cột của Pandas DataFrame thành 0.

Gấu trúc điền giá trị NaN

Nếu một cột trong khung dữ liệu của bạn có giá trị NaN hoặc Không, bạn có thể sử dụng các hàm “fillna ()” hoặc “Replace ()” để điền chúng bằng không (0).

lấp đầy()







Các giá trị NA / NaN được điền bằng cách tiếp cận được cung cấp bằng cách sử dụng hàm “fillna ()”. Nó có thể được sử dụng bằng cách xem xét cú pháp sau:



Nếu bạn muốn điền các giá trị NaN cho một cột, cú pháp như sau:




Khi bạn được yêu cầu điền các giá trị NaN cho DataFrame hoàn chỉnh, thì cú pháp được cung cấp như sau:






Thay thế()

Để thay thế một cột giá trị NaN, cú pháp được cung cấp như sau:




Trong khi đó, để thay thế toàn bộ giá trị NaN của DataFrame, chúng ta phải sử dụng cú pháp được đề cập sau:


Trong phần viết này, bây giờ chúng ta sẽ khám phá và tìm hiểu cách triển khai thực tế của cả hai phương pháp này để điền các giá trị NaN trong Pandas DataFrame của chúng ta.

Ví dụ 1: Điền các giá trị NaN bằng phương pháp Pandas “Fillna ()”

Hình minh họa này minh họa ứng dụng của hàm Pandas “DataFrame.fillna ()” để điền các giá trị NaN trong DataFrame đã cho bằng 0. Bạn có thể điền các giá trị còn thiếu vào một cột duy nhất hoặc bạn có thể điền chúng cho toàn bộ DataFrame. Ở đây, chúng ta sẽ thấy cả hai kỹ thuật này.

Để thực hiện các chiến lược này, chúng ta cần có một nền tảng thích hợp để thực hiện chương trình. Vì vậy, chúng tôi quyết định sử dụng công cụ 'Spyder'. Chúng tôi bắt đầu mã Python của mình bằng cách nhập bộ công cụ “gấu trúc” vào chương trình vì chúng tôi cần sử dụng tính năng Pandas để xây dựng DataFrame cũng như điền các giá trị còn thiếu trong DataFrame đó. 'Pd' được sử dụng làm bí danh của 'gấu trúc' trong suốt chương trình.

Bây giờ, chúng tôi có quyền truy cập vào các tính năng của Pandas. Đầu tiên chúng tôi sử dụng hàm “pd.DataFrame ()” để tạo DataFrame của chúng tôi. Chúng tôi đã gọi phương thức này và khởi tạo nó với ba cột. Tiêu đề của các cột này là “M1”, “M2” và “M3”. Các giá trị trong cột “M1” là “1”, “Không”, “5”, “9” và “3”. Các mục trong “M2” là “Không”, “3”, “8”, “4” và “6”. Trong khi “M3” lưu trữ dữ liệu dưới dạng “1”, “2”, “3”, “5” và “None”. Chúng tôi yêu cầu một đối tượng DataFrame trong đó chúng tôi có thể lưu trữ DataFrame này khi phương thức “pd.DataFrame ()” được gọi. Chúng tôi đã tạo một đối tượng DataFrame “bị thiếu” và gán nó theo kết quả mà chúng tôi nhận được từ hàm “pd.DataFrame ()”. Sau đó, chúng tôi sử dụng phương thức “print ()” của Python để hiển thị DataFrame trên bảng điều khiển Python.


Khi chúng tôi chạy đoạn mã này, một DataFrame có ba cột có thể được xem trên thiết bị đầu cuối. Ở đây, chúng ta có thể quan sát thấy rằng cả ba cột đều chứa giá trị null trong đó.


Chúng tôi đã tạo DataFrame với một số giá trị rỗng để áp dụng hàm Pandas “fillna ()” để lấp đầy các giá trị còn thiếu bằng 0. Hãy cùng tìm hiểu cách chúng tôi có thể thực hiện điều đó.

Sau khi hiển thị DataFrame, chúng tôi đã gọi hàm Pandas “fillna ()”. Ở đây, chúng ta sẽ học cách điền các giá trị còn thiếu vào một cột duy nhất. Cú pháp cho điều này đã được đề cập ở phần đầu của hướng dẫn. Chúng tôi đã cung cấp tên của DataFrame và chỉ định tiêu đề cột cụ thể bằng hàm “.fillna ()”. Giữa các dấu ngoặc đơn của phương thức này, chúng tôi đã cung cấp giá trị sẽ được đặt ở các vị trí rỗng. Tên DataFrame bị 'thiếu' và cột mà chúng tôi chọn ở đây là 'M2'. Giá trị được cung cấp giữa các dấu ngoặc nhọn của “fillna ()” là “0”. Cuối cùng, chúng tôi gọi hàm “print ()” để xem DataFrame đã cập nhật.


Ở đây, bạn có thể thấy rằng cột “M2” của DataFrame hiện không chứa bất kỳ giá trị nào bị thiếu vì giá trị NaN được điền bằng 0.


Để điền các giá trị NaN cho toàn bộ DataFrame bằng cùng một phương thức, chúng tôi gọi là “fillna ()”. Điều này khá đơn giản. Chúng tôi đã cung cấp tên DataFrame với hàm “fillna ()” và gán giá trị hàm “0” giữa các dấu ngoặc đơn. Cuối cùng, hàm “print ()” cho chúng ta thấy DataFrame đã được điền đầy đủ.


Điều này mang lại cho chúng tôi một DataFrame không có giá trị NaN vì tất cả các giá trị đều được điền bằng 0 ngay bây giờ.

Ví dụ 2: Điền các giá trị NaN bằng phương pháp Pandas “Replace ()”

Phần này của bài viết trình bày một phương pháp khác để điền các giá trị NaN trong DataFrame. Chúng tôi sẽ sử dụng hàm “Replace ()” của Pandas để điền các giá trị vào một cột duy nhất và trong một DataFrame hoàn chỉnh.

Chúng tôi bắt đầu viết mã trong công cụ 'Spyder'. Đầu tiên, chúng tôi nhập các thư viện cần thiết. Ở đây, chúng tôi đã tải thư viện Pandas để cho phép chương trình Python sử dụng các phương thức Pandas. Thư viện thứ hai mà chúng tôi đã tải là NumPy và đặt bí danh là “np”. NumPy xử lý dữ liệu bị thiếu bằng phương thức “Replace ()”.

Sau đó, chúng tôi tạo một DataFrame có ba cột - “vít”, “đinh” và “khoan”. Các giá trị trong mỗi cột được đưa ra tương ứng. Cột “vít” có các giá trị “112”, “234”, “Không” và “650”. Cột “đinh” có “123”, “145”, “Không” và “711”. Cuối cùng, cột 'khoan' có các giá trị '312', 'Không có', '500' và 'Không có'. DataFrame được lưu trữ trong đối tượng DataFrame “công cụ” và được hiển thị bằng phương thức “print ()”.


Một DataFrame với bốn giá trị NaN trong bản ghi có thể được nhìn thấy trong hình ảnh đầu ra sau:


Bây giờ, chúng tôi sử dụng phương thức Pandas “Replace ()” để điền các giá trị rỗng vào một cột duy nhất của DataFrame. Đối với nhiệm vụ, chúng tôi đã gọi hàm “Replace ()”. Chúng tôi đã cung cấp tên DataFrame “công cụ” và cột “vít” với phương thức “.replace ()”. Giữa các dấu ngoặc nhọn, chúng tôi đặt giá trị “0” cho các mục nhập “np.nan” trong DataFrame. Phương thức “print ()” được sử dụng để hiển thị kết quả đầu ra.


DataFrame kết quả hiển thị cho chúng ta cột đầu tiên với các mục nhập NaN được thay thế bằng 0 trong cột 'vít'.


Bây giờ, chúng ta sẽ học cách điền các giá trị trong toàn bộ DataFrame. Chúng tôi đã gọi phương thức “Replace ()” với tên của DataFrame và cung cấp giá trị mà chúng tôi muốn thay thế bằng các mục nhập np.nan. Cuối cùng, chúng tôi in DataFrame đã cập nhật với hàm “print ()”.


Điều này mang lại cho chúng tôi DataFrame kết quả mà không có bản ghi nào bị thiếu.

Sự kết luận

Xử lý các mục nhập bị thiếu trong DataFrame là điều cơ bản và là yêu cầu cần thiết để giảm độ phức tạp và xử lý dữ liệu một cách thách thức trong quá trình phân tích dữ liệu. Pandas cung cấp cho chúng tôi một số tùy chọn để đối phó với vấn đề này. Chúng tôi đã đưa ra hai chiến lược hữu ích trong hướng dẫn này. Chúng tôi đưa vào thực hành cả hai kỹ thuật này với sự hỗ trợ của công cụ “Spyder” để thực thi các mã mẫu nhằm làm cho mọi thứ dễ hiểu và dễ dàng hơn đối với bạn. Có được kiến ​​thức về các chức năng này sẽ giúp bạn rèn luyện các kỹ năng của Gấu trúc.