List-Crawlers trong AWS là gì?

List Crawlers Trong Aws La Gi



Dữ liệu có ảnh hưởng rất lớn đến sự phát triển của các công ty vì nhiều công ty phụ thuộc rất nhiều vào dữ liệu để hiểu rõ hơn về điều đó. Siêu dữ liệu là dữ liệu về dữ liệu giải thích dữ liệu để dữ liệu có thể được sử dụng để lấy thông tin tối đa từ nó. Siêu dữ liệu chứa thông tin như vị trí của dữ liệu, cấu trúc lược đồ, loại dữ liệu hoặc những thứ như chủ sở hữu dữ liệu.

Hướng dẫn này sẽ giải thích trình thu thập danh sách trong AWS.

List-Crawlers trong AWS là gì?

Trình thu thập dữ liệu là một thành phần của AWS Glue được dùng để thu thập dữ liệu qua vị trí dữ liệu và đưa thông tin đó trở lại danh mục. Thông tin mà trình thu thập thông tin thu thập có thể là kiểu dữ liệu của dữ liệu, cấu trúc lược đồ hay nói cách khác, nó thu thập siêu dữ liệu. Trình thu thập thông tin cũng có thể được sử dụng với danh mục Dữ liệu được sử dụng khi dữ liệu được di chuyển bên trong hệ sinh thái Keo trong khi sử dụng các công việc ETL, v.v.









Dịch vụ keo Amazon là gì?

AWS Glue là dịch vụ Tải và chuyển đổi trích xuất của Amazon cho phép người dùng sắp xếp, định vị, di chuyển và chuyển đổi tất cả dữ liệu. AWS Glue không có máy chủ vì người dùng không yêu cầu cung cấp và định cấu hình máy chủ hoặc quản lý vòng đời. Danh mục dữ liệu và trình thu thập thông tin là các thành phần của AWS Glue đóng vai trò là kho lưu trữ siêu dữ liệu liên tục:







Làm cách nào để tạo trình thu thập thông tin trên AWS?

Để tạo trình thu thập thông tin trên AWS, hãy truy cập dịch vụ AWS Glue từ Bảng điều khiển quản lý AWS:



Đi vào “ bánh xích ” bằng cách nhấp vào tên của nó từ bảng điều khiển bên trái:

Nhấp vào “ Tạo trình thu thập thông tin ' cái nút:

Nhập tên của trình thu thập thông tin và nhấp vào nút “ Kế tiếp ' cái nút:

Chọn tùy chọn ánh xạ cho bảng keo và nhấp vào nút “ thêm một nguồn ” để lấy dữ liệu từ:

Chọn dịch vụ S3 và nhấp vào nút “ Duyệt S3 ” nút để lấy vị trí của nguồn:

Chỉ cần chọn thư mục S3 và nhấp vào nút “ Chọn ' cái nút:

Sau khi vị trí được thêm vào nguồn, chỉ cần nhấp vào “ Thêm nguồn dữ liệu S3 ' cái nút:

Nhấp vào “ Kế tiếp ' cái nút:

Nhấp vào “ Tạo vai trò IAM mới ” nút từ “ Định cấu hình cài đặt bảo mật ' phần:

Nhập tên của vai trò và nhấp vào “ Tạo nên ' cái nút:

Sau đó, chỉ cần nhấp vào nút “ Kế tiếp ' cái nút:

Chọn cơ sở dữ liệu đích và nhập tên sẽ được sử dụng cho bảng:

Lên lịch trình thu thập thông tin cho “ theo yêu cầu ” và nhấp vào “ Kế tiếp ' cái nút:

Xem lại cấu hình và nhấp vào nút “ Tạo trình thu thập thông tin ' cái nút:

Trình thu thập thông tin đã được tạo thành công và nó có thể được sử dụng để tìm nạp dữ liệu từ nguồn bằng cách nhấp vào “ Chạy ' cái nút:

Đó là tất cả về trình thu thập danh sách trong AWS.

Phần kết luận

ListCrawler là thành phần của dịch vụ AWS Glue có thể dùng để thu thập thông tin từ các nguồn và quay lại danh mục. Danh mục dữ liệu và trình thu thập thông tin có thể được sử dụng để thu thập dữ liệu nhằm lấy thông tin về dữ liệu được gọi là siêu dữ liệu. Người dùng cũng có thể tạo trình thu thập thông tin từ AWS Glue để lấy dữ liệu từ dịch vụ S3 hoặc các nguồn khác và đặt các bảng đã tạo vào cơ sở dữ liệu. Hướng dẫn này đã giải thích ListCrawlers trong AWS và cách tạo chúng.