DALL-E 3: phiên bản mới của AI tạo ra mọi thứ bạn tưởng tượng

Hình ảnh đa dạng của dall e

Chúng tôi đã nói chuyện vào một dịp khác về DALL-E. Nhân dịp này phiên bản thứ ba của nó xuất hiện. DALL-E3 là tên của phiên bản mới của trí tuệ nhân tạo OpenAI tạo ra hình ảnh từ văn bản. Đây là một sự phát triển của DALL-E, được trình làng vào tháng 2021 năm XNUMX và đã khiến cả thế giới ngạc nhiên về khả năng tạo ra hình ảnh về các khái niệm đa dạng như vậy. như một chú chim cánh cụt đội mũ hoặc một quả bơ có hình dạng như một chiếc ghế. DALL-E 3 cải thiện đáng kể hiệu suất và khả năng của phiên bản tiền nhiệm, mang đến hình ảnh chân thực, chi tiết và nhất quán hơn với văn bản được cung cấp.

Bên cạnh đó, tích hợp nguyên bản với ChatGPT, chatbot dựa trên GPT-3 cho phép bạn trò chuyện với trí tuệ nhân tạo và yêu cầu nó tạo hình ảnh theo hướng dẫn của chúng tôi. Trong bài viết này chúng tôi sẽ nói với bạn DALL-E 3 hoạt động như thế nào, những tính năng mới mà nó mang lại liên quan đến DALL-E, loại hình ảnh mà nó có thể tạo ra và ý nghĩa của công nghệ này đối với tương lai của thiết kế và truyền thông.

DALL-E 3 hoạt động như thế nào?

Hình ảnh Dall e của một phi hành gia

DALL-E3 Đây là một mô hình trí tuệ nhân tạo dựa trên mạng lưới thần kinh nhân tạo, đặc biệt là trong cái gọi là máy biến áp, có khả năng xử lý các chuỗi dữ liệu, chẳng hạn như văn bản hoặc hình ảnh và tìm hiểu mối quan hệ giữa chúng.

Mô hình này đã được huấn luyện với một số lượng lớn các cặp văn bản-hình ảnh, trích từ internet, để học cách liên kết các khái niệm hình ảnh với từ ngữ. Bằng cách này, khi đưa ra một văn bản, trẻ có thể tạo ra hình ảnh minh họa văn bản đó bằng khả năng sáng tạo và trí tưởng tượng của riêng mình.

Nhận cả văn bản và hình ảnh dưới dạng một luồng dữ liệu duy nhất, bao gồm tối đa 1280 mã thông báo. Mã thông báo là bất kỳ biểu tượng nào của từ vựng riêng biệt; Ví dụ: mỗi chữ cái trong bảng chữ cái là một mã thông báo. Từ vựng của DALL-E 3 có mã thông báo cho cả văn bản và hình ảnh. Văn bản được thể hiện bằng cách sử dụng tối đa 256 mã thông báo được mã hóa bằng BPE (Mã hóa cặp byte) và hình ảnh được thể hiện bằng 1024 mã thông báo được mã hóa bằng VQ-VAE (Bộ mã hóa tự động biến đổi lượng tử hóa vectơ).

DALL-E 3 được đào tạo bằng phương pháp khả năng tối đa, bao gồm việc tạo ra tất cả các mã thông báo lần lượt, tối đa hóa xác suất của từng mã thông báo trước đó. Bằng cách này, DALL-E 3 có thể tạo một hình ảnh từ đầuhoặc tạo lại bất kỳ phần nào của hình ảnh hiện có kéo dài đến góc dưới cùng bên phải, miễn là nó phù hợp với văn bản.

Nó mang lại tin tức gì?

Một tòa tháp được thực hiện bởi Dall e

DALL-E 3 giả định một bước tiến lớn so với DALL-E ở một số khía cạnh. Trước hết, DALL-E 3 có độ phân giải và chất lượng cao hơn trong hình ảnh mà nó tạo ra. Trong khi DALL-E tạo ra hình ảnh của 256 × 256 điểm ảnh, DALL-E 3 tạo ra hình ảnh của 512 × 512 điểm ảnh, cho phép bạn đánh giá cao hơn các chi tiết và kết cấu.

Thứ hai, DALL-E 3 có sự hiểu biết và độ chính xác cao hơn khi giải thích văn bản được cung cấp. Nó có thể nắm bắt tốt hơn các sắc thái và thông số kỹ thuật của văn bản cũng như mối quan hệ giữa các yếu tố tạo nên hình ảnh. Ví dụ, bạn có thể tạo hình ảnh có văn bản bên trong, chẳng hạn như áp phích hoặc nhãn, tôn trọng ngôn ngữ và định dạng của văn bản. Bạn cũng có thể tạo hình ảnh với các bộ phận cơ thể con người thực tế và cân đối hơn, chẳng hạn như bàn tay hoặc bàn chân.

Thứ ba, DALL-E 3 có sự tích hợp và dễ dàng hơn sử dụng nhờ kết nối với ChatGPT. ChatGPT là chatbot của OpenAI dựa trên GPT-3, mô hình ngôn ngữ tiên tiến nhất thế giới, cho phép bạn trò chuyện với trí tuệ nhân tạo và yêu cầu nó thực hiện mọi việc. Bằng cách tích hợp với ChatGPT, DALL-E 3 bạn có thể nhận được hướng dẫn chi tiết hơn và hình ảnh rõ ràng để tạo ra hình ảnh, cũng như cung cấp phản hồi tự nhiên và trôi chảy hơn cho người dùng.

DALL-E 3 có thể tạo ra những loại hình ảnh nào?

Một bức tranh dall e

DALL-E3 có thể tạo ra hình ảnh của nhiều khái niệm khác nhau có thể được diễn đạt bằng ngôn ngữ tự nhiên. Một số ví dụ:

  • Hình ảnh của các đồ vật hoặc động vật được nhân hóa, tức là với những đặc điểm của con người. Ví dụ: một con mèo mặc vest và đeo cà vạt, hoặc một con voi đeo kính và đội mũ.
  • Hình ảnh của các vật thể hoặc động vật lai, nghĩa là, có đặc điểm kết hợp của hai hoặc nhiều loài. Ví dụ như con chó có cánh bướm, con rắn đầu sư tử.
  • Hình ảnh của đồ vật hoặc động vật được sửa đổi, nghĩa là, với các đặc điểm được thay đổi hoặc bổ sung. Ví dụ, một chiếc ô tô có bánh phô mai hoặc một bông hoa có cánh hoa thủy tinh.
  • Hình ảnh của các đồ vật hoặc động vật tưởng tượng, nghĩa là chúng không tồn tại trong thực tế. Ví dụ như kỳ lân màu hồng hay rồng lửa.
  • Hình ảnh về cảnh hoặc phong cảnh hư cấu, nghĩa là chúng không tương ứng với bất kỳ địa điểm thực tế nào. Ví dụ như một thành phố lơ lửng trên bầu trời hay một khu rừng đầy mê hoặc.
  • Hình ảnh từ các phép biến đổi hoặc thao tác của hình ảnh hiện có, nghĩa là chúng thay đổi một số khía cạnh của ảnh gốc. Ví dụ: thay đổi màu tóc hoặc mắt của một người hoặc thêm hoặc bớt nội dung nào đó khỏi hình ảnh.

DALL-E 3 có ý nghĩa gì?

Món súp đầy màu sắc được làm bằng AI

DALL-E 3 là một ví dụ về tiềm năng to lớn mà trí tuệ nhân tạo mang lại cho lĩnh vực thiết kế và truyền thông. Với DALL-E 3, khả năng tạo hình ảnh nguyên bản và được cá nhân hóa sẽ mở ra bằng cách chỉ cần viết một cụm từ, có thể có nhiều ứng dụng thực tế và sáng tạo.

Ví dụ: DALL-E 3 có thể được sử dụng để:

  • Tạo hình minh họa cho sách, tạp chí hoặc blog.
  • Tạo logo hoặc áp phích cho các thương hiệu hoặc sự kiện.
  • Tạo hình đại diện hoặc biểu tượng cảm xúc cho các mạng xã hội hoặc trò chơi.
  • Tạo meme hoặc nhãn dán để chia sẻ với bạn bè.
  • Tạo bản phác thảo hoặc nguyên mẫu cho các dự án nghệ thuật hoặc chuyên nghiệp.
  • Tạo hình ảnh giáo dục hoặc thông tin để giải thích các khái niệm phức tạp.

Tuy nhiên, DALL-E 3 cũng đặt ra một số thách thức và rủi ro cần phải tính đến. Một mặt, DALL-E 3 có thể ảnh hưởng tới công việc và sự công nhận của các nhà thiết kế và nghệ sĩ con người, những người có thể thấy khả năng sáng tạo và độc đáo của họ bị máy móc đe dọa. Mặt khác, DALL-E 3 có thể tạo điều kiện thuận lợi cho việc tạo và phổ biến nội dung sai lệch hoặc gây hiểu lầm, chẳng hạn như tin giả hoặc tin giả, có thể gây hậu quả tiêu cực cho xã hội.

Trí tưởng tượng của bạn giờ đây không còn rào cản

Robot do AI tạo ra

DALL-E 3 là phiên bản mới của Trí tuệ nhân tạo OpenAI tạo ra hình ảnh từ văn bản. DALL-E 3 cải thiện chất lượng và độ chính xác của hình ảnh mà nó tạo ra cũng như khả năng tích hợp với ChatGPT. Bạn có thể tạo ra những hình ảnh đáng kinh ngạc về nhiều khái niệm khác nhau có thể được diễn đạt bằng ngôn ngữ tự nhiên. DALL-E 3 có Tiềm năng lớn về thiết kế và truyền thôngnhưng nó cũng đặt ra một số thách thức và rủi ro cần phải tính đến.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.