Dalle-mini là gì và nó hoạt động như thế nào?

Dalle-mini là một mô hình học sâu có thể tạo ra hình ảnh chất lượng cao từ văn bản đầu vào của người dùng. Nó dựa trên mô hình DALL-E mà OpenAI đã phát hành vào tháng 1 năm 2021. DALL-E là viết tắt của “ Ngôn ngữ không bị ràng buộc và biểu hiện tiềm ẩn ” là một mạng thần kinh dựa trên máy biến áp có thể mã hóa văn bản và hình ảnh vào một không gian tiềm ẩn chung, sau đó giải mã chúng trở lại thành một trong hai phương thức.

Bài viết này sẽ giải thích các nội dung sau:

Dalle-mini là gì?

Tặng cô ấy-mini là phiên bản nhỏ hơn và nhanh hơn của DALL-E, được tạo bởi EleutherAI, một tập thể nghiên cứu nguồn mở. Dalle-mini chỉ sử dụng 6 tỷ tham số, so với 12 tỷ của DALL-E và nó có thể chạy trên một GPU duy nhất. Dalle-mini cũng sử dụng một mã thông báo và từ vựng khác cho kiểu nhập văn bản, giúp nó tương thích hơn với các ngôn ngữ và miền khác nhau:

Ghi chú : Người dùng có thể tạo hình ảnh miễn phí bằng Dalle-mini bằng cách làm theo hướng dẫn liên kết .

Công việc của Dalle-mini là gì?

Ý tưởng chính đằng sau Dalle-mini là sức mạnh của máy biến áp, là mạng lưới thần kinh. Họ có thể tìm hiểu các phụ thuộc tầm xa và các mẫu phức tạp trong dữ liệu tuần tự, chẳng hạn như văn bản hoặc hình ảnh.

Máy biến áp bao gồm hai phần chính: bộ mã hóa và bộ giải mã. Phần đầu tiên nhận đầu vào (mô tả văn bản) và thay đổi nó thành các vectơ ẩn. Sau đó, bộ giải mã lấy nó và tạo đầu ra (hình ảnh) có liên quan đến đầu vào.

Sự khác biệt giữa Dalle-mini và DALL-E là gì?

Dalle-mini và DALL-E sử dụng kiến trúc bộ mã hóa-giải mã dùng chung cho cả văn bản và hình ảnh. Họ có thể mã hóa và giải mã cả hai phương thức bằng cùng một mạng. Điều này cho phép họ tìm hiểu một không gian tiềm ẩn chung nắm bắt được mối quan hệ ngữ nghĩa giữa văn bản và hình ảnh. Sau đó, cho phép họ thực hiện tạo đa phương thức, chẳng hạn như tạo hình ảnh từ văn bản hoặc ngược lại.

Dalle-mini hoạt động như thế nào?

Để tạo hình ảnh từ mô tả văn bản, Dalle-mini trước tiên mã hóa văn bản bằng thuật toán mã hóa cặp byte (BPE), thuật toán này chia văn bản thành các đơn vị từ phụ dựa trên tần suất và sự xuất hiện cùng lúc của chúng:

Chúng ta hãy đi vào chi tiết hoạt động bên trong của Dalle-mini:

Hoạt động bên trong của Dalle-mini

Chúng ta hãy giả sử, từ “ đang chơi ” có thể được chia thành “ tấm ván ' Và ' ying ”. Các mã thông báo sau đó được ánh xạ tới các ID số bằng cách sử dụng từ vựng gồm 8192 mã thông báo. Các ID được đưa vào bộ mã hóa, tạo ra một đại diện tiềm ẩn có kích thước 256 x 64:

Sau đó, bộ giải mã lấy biểu diễn tiềm ẩn và tạo ra một hình ảnh có kích thước 256 x 256 pixel. Bộ giải mã sử dụng quy trình tự hồi quy, có nghĩa là nó tạo từng pixel một, dựa trên các pixel trước đó và biểu diễn tiềm ẩn.

Làm cách nào để tạo hình ảnh từ mô tả văn bản bằng Dalle-mini?

Để tạo mô tả văn bản từ hình ảnh bằng Dalle-mini, hãy nhập văn bản vào cửa sổ nhắc. Chẳng hạn, gõ “ Một bức tranh hoa ngẫu nhiên ” trong dấu nhắc và nhấn “ Chạy ' cái nút:

Đầu ra cho thấy Dalle-mini đã tạo các hình ảnh có liên quan theo văn bản đầu vào.

Phần kết luận

Dalle-mini là một mô hình đáng chú ý thể hiện tiềm năng của máy biến thế trong việc tạo ra đa phương thức. Họ có thể tạo ra những hình ảnh chân thực và đa dạng từ những mô tả bằng ngôn ngữ tự nhiên, cũng như những văn bản mạch lạc và phù hợp từ những hình ảnh. Họ cũng có thể xử lý các bố cục phức tạp, chẳng hạn như kết hợp nhiều đối tượng hoặc thuộc tính trong một hình ảnh hoặc văn bản. Bài viết này đã giải thích chi tiết về Dalle-mini và hoạt động của nó.

Dalle-mini là gì và nó hoạt động như thế nào?