DALL-E 3: la nova versió de la IA que crea allò que imagines

Ja havíem parlat en una altra ocasió de LLOSA. En aquesta ocasió apareix la tercera versió. DALL-E3 és el nom de la nova versió de la intel·ligència artificial de OpenAI que crea imatges a partir de text. Es tracta d'una evolució de DALL-E, que es va presentar el gener del 2021 i que ja va sorprendre el món amb la seva capacitat per generar imatges de conceptes tan variats com un pingüí amb barret o un alvocat amb forma de cadira. DALL-E 3 millora considerablement el rendiment i les possibilitats del seu predecessor, oferint imatges més realistes, detallades i coherents amb el text que se li proporciona.

A més, s'integra de forma nativa amb ChatGPT, el chatbot basat en GPT-3 que permet conversar amb la intel·ligència artificial i demanar-li que creï imatges segons les nostres indicacions. En aquest article t'explicarem com funciona DALL-E 3, quines novetats porta pel que fa a DALL-E, quin tipus d'imatges pot crear i quines implicacions té aquesta tecnologia per al futur del disseny i la comunicació.

Com funciona DALL-E 3?

DALL-E3 és un model d'intel·ligència artificial basat en xarxes neuronals artificials, concretament en els anomenats transformadors, que són capaços de processar seqüències de dades, com ara text o imatges, i aprendre les relacions entre ells.

aquest model s'ha entrenat amb una gran quantitat de parells de text i imatge, extrets d'internet, per aprendre a associar conceptes visuals amb paraules. D'aquesta manera, quan se li proporciona un text, és capaç de generar una imatge que ho il·lustri, usant la seva pròpia creativitat i imaginació.

Rep tant el text com la imatge com una sola seqüència de dades, composta per un màxim de 1280 tokens. Un token és qualsevol símbol d'un vocabulari discret; per exemple, cada lletra de l'alfabet és un token. El vocabulari de DALL-E 3 té tokens tant per al text com per a la imatge. El text es representa usant un màxim de 256 tokens codificats amb BPE (Byte Pair Encoding), i la imatge es representa usant 1024 tokens codificats amb VQ-VAE (Vector Quantized Variational Autoencoder).

DALL-E 3 s'entrena usant el mètode de màxima versemblança, que consisteix a generar tots els tokens, un darrere l'altre, maximitzant la probabilitat de cadascun donat els anteriors. D'aquesta manera, DALL-E 3 pot crear una imatge des de zero, o regenerar qualsevol part d'una imatge existent que s'estengui fins a la cantonada inferior dreta, sempre que sigui coherent amb el text.

Quines novetats porta?

DALL-E 3 suposa un gran avenç respecte a DALL-E en diversos aspectes. En primer lloc, DALL-E 3 té més resolució i qualitat en les imatges que genera. Mentre que DALL-E creava imatges de 256 × 256 píxels, DALL-E 3 crea imatges de 512 × 512 píxels, el que permet apreciar millor els detalls i les textures.

En segon lloc, DALL-E 3 té una major comprensió i precisió a l'hora d'interpretar el text que se us proporciona. És capaç de copsar millor els matisos i les especificacions del text, així com les relacions entre els elements que componen la imatge. Per exemple, pot crear imatges amb text dins, com cartells o etiquetes, respectant l'idioma i el format del text. També podeu crear imatges amb parts del cos humà més realistes i proporcionades, com les mans o els peus.

En tercer lloc, DALL-E 3 té una major integració i facilitat d'ús gràcies a la connexió amb ChatGPT. ChatGPT és el chatbot d'OpenAI basat en GPT-3, el model de llenguatge més avançat del món, que permet conversar amb la intel·ligència artificial i demanar-li que faci coses. En integrar-se amb ChatGPT, DALL-E 3 pot rebre instruccions més detallades i clares per crear les imatges, així com oferir una retroalimentació més natural i fluida a lusuari.

Quin tipus d'imatges podeu crear DALL-E 3?

DALL-E3 pot crear imatges duna gran varietat de conceptes que es puguin expressar en llenguatge natural. Alguns exemples són:

Imatges d'objectes o animals antropomorfitzats, és a dir, amb característiques humanes. Per exemple, un gat amb vestit i corbata, o un elefant amb ulleres i barret.
Imatges d'objectes o animals híbrids, és a dir, amb característiques combinades de dues o més espècies. Per exemple, un gos amb ales de papallona, o una serp amb cap de lleó.
Imatges d'objectes o animals modificats, és a dir, amb característiques alterades o afegides. Per exemple, un cotxe amb rodes de formatge, o una flor amb pètals de vidre.
Imatges d'objectes o animals imaginaris, és a dir, que no existeixen a la realitat. Per exemple, un unicorn rosa, o un drac de foc.
Imatges d'escenes o paisatges ficticis, és a dir, que no corresponen a cap lloc real. Per exemple, una ciutat flotant al cel, o un bosc encantat.
Imatges de transformacions o manipulacions d'imatges existents, és a dir, que canvien algun aspecte de la imatge original. Per exemple, canviar el color dels cabells o els ulls duna persona, o afegir o treure algun element de la imatge.

Quines implicacions té DALL-E 3?

DALL-E 3 és una mostra de l'enorme potencial que té la intel·ligència artificial per al camp del disseny i la comunicació. Amb DALL-E 3 s'obre la possibilitat de crear imatges personalitzades i originals amb només escriure una frase, cosa que pot tenir múltiples aplicacions pràctiques i creatives.

Per exemple, DALL-E 3 es podria utilitzar per a:

Crear il·lustracions per a llibres, revistes o blocs.
Crear logos o cartells per a marques o esdeveniments.
Crear avatars o emojis per a xarxes socials o jocs.
Crear mems o stickers per compartir amb amics.
Crear esbossos o prototips per a projectes artístics o professionals.
Crear imatges educatives o divulgatives per explicar conceptes complexos.

Tot i això, DALL-E 3 també planteja alguns desafiaments i riscos que cal tenir en compte. D'una banda, DALL-E 3 pot afectar la feina i al reconeixement dels dissenyadors i artistes humans, que podrien veure amenaçada la seva creativitat i originalitat per una màquina. D'altra banda, DALL-E 3 pot facilitar la creació i la difusió de continguts falsos o enganyosos, com ara deepfakes o fake news, que podrien tenir conseqüències negatives per a la societat.

La teva imaginació, ara sense barreres

DALL-E 3 és la nova versió de la intel·ligència artificial d'OpenAI que crea imatges a partir de text. DALL-E 3 millora la qualitat i la precisió de les imatges que genera, així com la seva integració amb el ChatGPT. Podeu crear imatges increïbles d'una gran varietat de conceptes que es puguin expressar en llenguatge natural. DALL-E 3 té un gran potencial per al disseny i la comunicacióperò també planteja alguns desafiaments i riscos que cal tenir en compte.

CreativosOnline