Gấu trúc Qcut

Gau Truc Qcut



“Python” chứa nhiều thư viện và khi chúng tôi muốn phân tích hoặc thao tác dữ liệu, chúng tôi sử dụng các thư viện “Python” này và “pandas” cũng là thư viện của nó. Thư viện 'gấu trúc' được sử dụng trong lĩnh vực khoa học dữ liệu và nó cũng được sử dụng trong các hoạt động học máy. DataFrame “gấu trúc” giúp chúng tôi lưu dữ liệu. Trong “pandas”, khi chúng ta muốn ghép dữ liệu, thì chúng ta sử dụng phương thức “qcut ()”. Phương thức 'qcut ()' được sử dụng để chuyển đổi các đối tượng địa lý liên tục thành đối tượng địa lý phân loại. Chúng ta có thể thêm các loại tham số khác nhau trong phương thức “qcut ()” này để nhận các loại kết quả khác nhau. Hướng dẫn này là tất cả về phương thức “qcut ()” và chúng tôi sẽ giải thích đầy đủ chi tiết về phương thức “qcut ()” ở đây. Chúng tôi sẽ giải thích cho bạn cách chúng tôi thực hiện việc phân loại dữ liệu với sự trợ giúp của hàm “qcut ()” trong “pandas” trong hướng dẫn này. ”

Ví dụ # 01

Chúng tôi sẽ áp dụng phương thức “qcut ()” trong các mã này và chúng tôi sẽ thực hiện các mã này trong ứng dụng “Spyder”. Khi phải làm việc với “pandas”, chúng ta chỉ có thể truy cập các chức năng của nó khi nhập thư viện “pandas” vào mã của mình. Đầu tiên, chúng tôi đặt 'import', sau đó chúng tôi viết 'pandas as pd'. Bây giờ, chúng ta phải áp dụng phương thức “qcut ()”, vì vậy, chúng ta đang tạo DataFrame ở đây. Chúng tôi tạo “Random_df” chứa “R_ID, R_name và R_age” làm cột của nó và cũng trong “R_ID”, chúng tôi đặt “R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 và R_81 ”. Sau đó, chúng tôi thêm “Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob và Harper” trong cột “R_name”. Sau đó, chúng tôi chèn “21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 và 40” vào cột “R_age”. Bây giờ, chúng tôi sử dụng “print (),” chứa “Random_df” và nó sẽ giúp hiển thị DataFrame “Random_df”. Chúng tôi vừa tạo DataFrame và chưa áp dụng phương thức “qcut ()”.








Biểu tượng 'Chạy' giúp chúng tôi thực thi các mã. Khi chúng tôi nhấn biểu tượng “chạy” này, thì kết quả của mã này được hiển thị trên thiết bị đầu cuối của ứng dụng “Spyder”. DataFarme “Random_df” được hiển thị là kết quả của mã mà chúng tôi đã viết trong ví dụ này. Bây giờ, chúng ta sẽ áp dụng phương thức “qcut ()” và cũng sẽ hiển thị kết quả của nó.




Chúng tôi đang phân loại dữ liệu ở đây. Chúng tôi đang phân loại cột “R_age” và đặt phương thức “pd.qcut ()”, là phương thức của “pandas” hỗ trợ việc phân loại dữ liệu. Trong phương pháp này, chúng tôi chèn tên của DataFrame và cũng là tên cột mà chúng tôi muốn áp dụng phương thức “qcut ()” này. Chúng tôi cũng đặt giá trị của “q” thành “5” và nó được sử dụng để cắt dữ liệu của cột “R_age” thành năm lượng tử bằng nhau. Chúng tôi thêm phương thức “qcut ()” trong “print ()”, vì vậy nó cũng sẽ hiển thị dữ liệu binning trên thiết bị đầu cuối.




Tại đây, dữ liệu sau khi phân loại được hiển thị và nó cắt “R_age” thành năm lượng tử. Nó cũng hiển thị các danh mục trong đó dữ liệu cột “R_age” được phân loại. Chuỗi phân loại đại diện cho các thùng “R_age”.






Chúng tôi cũng có thể điều chỉnh nhãn cho các thùng này. Chúng tôi thêm các nhãn thùng này để làm cho chúng dễ hiểu. Chúng tôi thêm cột “R_age_qcut” vào “Random_df”, trong đó chúng tôi thêm nhãn của các thùng này. Chúng tôi lại sử dụng phương thức “pd.qcut ()” để gắn nhãn chúng. Chúng tôi thêm các nhãn “ít, không quá ít, tầm thường, cao và cao nhất” vào đó. Sau đó, chúng tôi lại đặt “Random_df” vào “print ()”.


Tất cả các thùng đều được dán nhãn và trình bày trong kết quả này. Cột “R_age_qcut” được hiển thị trong DataFrame này, trong đó các thùng có nhãn được hiển thị.



Ví dụ # 02

Để tạo DataFrame, trước tiên chúng tôi thêm “điểm”, là “3, 6, 8, 7, 2, 5, 1, 9, 4, 7 và 8”. Sau đó, chúng tôi thêm tên của các sinh viên trong “sinh viên”, đó là “Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard và Alexander”. Sau đó, chúng tôi tạo “Grades_df” nơi chúng tôi đã thêm phương thức “pd.DataFrame ()” và trong phương thức này, chúng tôi đặt “Std_name”, sẽ xuất hiện dưới dạng tên cột và gán các giá trị của “sinh viên” cho nó. Sau đó, chúng tôi đặt “Students_grades” làm tên cột của DataFrame và cũng gán “điểm” ở đây, mà chúng tôi đã tạo ở trên. Sau đó, chúng tôi có “print ()”, trong đó chúng tôi thêm “Grades_df” để in.


DataFrame chứa hai cột được hiển thị trong kết quả của mã này. Bây giờ, chúng tôi sẽ áp dụng phương thức “qcut ()” cho cột “Lớp học_ sinh viên” để phân loại dữ liệu của các giá trị của cột này.


Chúng tôi thêm một cột mới 'lớp' ở đây, trong đó chúng tôi đã áp dụng 'pd.qcut ()' cho cột 'Lớp_ học sinh' và chúng tôi cũng đã sử dụng '4' cho giá trị của 'q', vì vậy nó sẽ cắt dữ liệu thành bốn lượng tử bằng nhau. Sau đó, chúng tôi chỉ định các lượng tử này ở đây bằng cách đặt các giá trị vào “q”, là “0, .4, .8 và 1”. Sau đó, chúng tôi cũng hiển thị điều này. Bây giờ, chúng tôi đang gắn nhãn cho những dữ liệu được phân nhóm này và các nhãn chúng tôi thêm ở đây là “D, C, A và B” và cũng được lưu trữ trong cột “cấp”.


Tại đây, dữ liệu sau khi phân loại được hiển thị ở đây trong cột 'điểm' và nó cắt dữ liệu của cột 'Học sinh_cấp_hình' thành bốn lượng tử bằng nhau.


DataFrame mà chúng tôi nhận được sau khi áp dụng phương thức “qcut ()” và chỉ định các lượng tử được hiển thị trong kết quả này.


Bây giờ, sau khi thêm các nhãn vào các thùng này cũng được hiển thị trong kết quả này trong cột 'cấp' và bạn có thể thấy rằng nó sẽ gán các nhãn theo các giá trị của thùng.

Ví dụ # 03

Chúng tôi cũng có thể áp dụng phương thức “qcut ()” cho dữ liệu của tệp CSV. Đối với điều này, trước tiên, chúng tôi đọc dữ liệu của tệp CSV với sự trợ giúp của phương thức “read_csv ()”. Chúng tôi đang đọc dữ liệu của tệp “office2.csv” và sau đó dữ liệu của tệp này được đặt trong “Office_df”. Phương pháp này sẽ chuyển đổi dữ liệu của tệp “office2” thành DataFrame và lưu nó trong “Office_df”. Sau đó, chúng tôi cũng hiển thị dữ liệu này bằng cách đặt “Office_df” vào “print ()”. Sau đó, chúng tôi thêm một cột mới có tên “Units_qcut”, chúng tôi áp dụng hàm “pd.qcut ()” cho cột “Units”.

Ngoài ra, chúng tôi đặt giá trị của biến 'q' thành '5', điều này sẽ chia dữ liệu thành năm lượng tử bằng nhau. Dữ liệu, sau khi cắt thành 5 lượng tử bằng nhau, được lưu trữ trong cột “Units_qcut” và cột này cũng được thêm vào “Office_df” và “Office_df” được hiển thị lại ở đây bằng cách sử dụng “print ()”. Giờ đây, chúng tôi đang gắn nhãn các dữ liệu đã phân loại này, thêm các nhãn trong phương thức “qcut ()”, là “Phần 1, Phần 2, Phần 3, Phần 4 và Phần 5” và lưu trữ chúng trong cột “Nhãn” . Chúng tôi cũng hiển thị DataFrame này, trong đó cột 'Nhãn' được thêm vào.


Dữ liệu mà chúng tôi nhận được sau khi đọc tệp “office2.csv” được hiển thị ở đây dưới dạng DataFrame. Sau đó, cột “Units_qcut” được thêm vào, trong đó các giá trị được binned của cột “Units” được hiển thị. Sau đó, cột 'Nhãn' cũng được thêm vào, cột này sẽ gán nhãn cho các giá trị được phân nhóm này. Tất cả điều này được thực hiện bằng cách sử dụng phương thức “qcut ()” trong “pandas”.

Sự kết luận

Chúng tôi đã giải thích chi tiết về phương thức “qcut ()” trong hướng dẫn này để giúp ghép dữ liệu trong “pandas”. Chúng tôi đã thảo luận rằng dữ liệu được phân loại theo giá trị 'q' của tập tin lượng tử mà chúng tôi đã thêm trong phương thức 'qcut ()' và chúng tôi cũng đã điều chỉnh nhãn cho các dữ liệu được phân nhóm này. Chúng tôi đã khám phá phương thức “qcut ()” và đã áp dụng phương pháp này cho các cột của DataFrame và chúng tôi cũng đã áp dụng phương thức “qcut ()” này cho dữ liệu của tệp CSV sau khi đọc tệp CSV. Chúng tôi đã trình bày kết quả của tất cả các mã trong hướng dẫn này để giải thích rõ ràng và hiển thị kết quả của phương thức “qcut ()”.