Làm cách nào để tạo trình thu thập dữ liệu để tìm nạp dữ liệu từ bộ chứa S3?

Lam Cach Nao De Tao Trinh Thu Thap Du Lieu De Tim Nap Du Lieu Tu Bo Chua S3



AWS Glue được sử dụng để khám phá dữ liệu, tích hợp dữ liệu, thu thập dữ liệu và tạo danh mục dữ liệu trên đám mây. Người dùng có thể tạo trình thu thập dữ liệu từ AWS Glue. Trình thu thập dữ liệu này sẽ thu thập dữ liệu từ nguồn đã cho rồi lưu trữ dữ liệu đó trên danh mục dữ liệu để thu thập thông tin. Người dùng chỉ phải chạy trình thu thập thông tin và mọi thứ khác sẽ được trình thu thập thông tin thực hiện trong giây lát.

Hướng dẫn này sẽ giải thích cách tạo trình thu thập dữ liệu để tìm nạp dữ liệu từ bộ chứa S3.

Làm cách nào để tạo trình thu thập dữ liệu để tìm nạp dữ liệu từ bộ chứa S3?

Để tạo trình thu thập thông tin trong AWS, hãy truy cập “ Keo AWS ” dịch vụ từ bảng điều khiển Amazon:









Nhấp vào “ cơ sở dữ liệu ” từ phần Danh mục dữ liệu để tạo cơ sở dữ liệu:







Nhấp vào “ Thêm cơ sở dữ liệu ” để bắt đầu cấu hình:



Nhập tên của cơ sở dữ liệu và để nguyên mọi thứ vì nó là tùy chọn trước khi nhấp vào “ Tạo nên cơ sở dữ liệu ' cái nút:

Cơ sở dữ liệu đã được tạo thành công:

Sau đó, chỉ cần đi đến “ bánh xích ” bằng cách nhấp vào nó từ bảng điều khiển bên trái:

Nhấp vào “ Tạo trình thu thập thông tin ' cái nút:

Nhập tên của trình thu thập thông tin và nhấp vào nút “ Kế tiếp ' cái nút:

Nhấp vào “ Thêm nguồn dữ liệu ” để chọn nguồn dữ liệu:

Để kiểm tra đường dẫn lưu trữ dữ liệu, hãy truy cập dịch vụ S3:

Đi vào bộ chứa S3 nơi dữ liệu được tải lên. Người dùng có thể tạo nên một cái xô và tải lên dữ liệu trên đó từ bảng điều khiển AWS S3:

Nhấp vào “ Duyệt S3 ” để chọn đường dẫn của dữ liệu:

Chọn thư mục chứa dữ liệu, sau đó bấm vào nút “ Chọn ' cái nút:

Đường dẫn S3 đã được chọn, bây giờ hãy nhấp vào “ Thêm nguồn dữ liệu S3 ' cái nút:

Khi nguồn dữ liệu được thêm vào, chỉ cần nhấp vào nút “ Kế tiếp ' cái nút:

Thêm vai trò IAM và sau đó nhấp vào “ Kế tiếp ' cái nút:

Nhập cơ sở dữ liệu đích đã tạo trước đó rồi nhập tên cho bảng:

Chọn lịch trình Theo yêu cầu cho trình thu thập thông tin và nhấp vào “ Kế tiếp ' cái nút:

Xem lại trình thu thập thông tin và nhấp vào “ Tạo trình thu thập thông tin ' cái nút:

Trình thu thập thông tin đã được tạo thành công, nhấp vào “ Chạy ” nút sau khi chọn nó:

Sẽ mất một lúc để chạy trình thu thập thông tin và nó sẽ tìm nạp dữ liệu cũng như tạo một bảng để lưu trữ dữ liệu:

Đi vào “ Những cái bàn ” trang từ bảng điều khiển Glue:

Chọn bảng bằng cách nhấp vào tên của nó:

Chi tiết câu chuyện đã được hiển thị có chứa siêu dữ liệu của dữ liệu đã tìm nạp:

Cuộn xuống trang và chọn phần để xem bảng chứa dữ liệu:

Đó là tất cả về việc tạo trình thu thập thông tin để tìm nạp dữ liệu từ bộ chứa S3.

Phần kết luận

Để tạo trình thu thập thông tin nhằm tìm nạp dữ liệu từ bộ chứa S3, hãy tạo cơ sở dữ liệu trên AWS Glue để lưu trữ dữ liệu đã thu thập thông tin. Định cấu hình trình thu thập thông tin từ bảng điều khiển Keo bằng cách cung cấp nguồn dữ liệu (bộ chứa S3) và cơ sở dữ liệu đích. Chạy trình thu thập thông tin và tìm nạp dữ liệu từ bộ chứa S3 vào bảng cơ sở dữ liệu như hướng dẫn này đã giải thích cặn kẽ.