DALL-E 3: la nueva versión de la IA que crea lo que imagines

Ya habíamos hablado en otra ocasión de DALL-E. En esta ocasión aparece su tercera versión. DALL-E 3 es el nombre de la nueva versión de la inteligencia artificial de OpenAI que crea imágenes a partir de texto. Se trata de una evolución de DALL-E, que se presentó en enero de 2021 y que ya sorprendió al mundo con su capacidad para generar imágenes de conceptos tan variados como un pingüino con sombrero o un aguacate con forma de silla. DALL-E 3 mejora considerablemente el rendimiento y las posibilidades de su predecesor, ofreciendo imágenes más realistas, detalladas y coherentes con el texto que se le proporciona.

Además, se integra de forma nativa con ChatGPT, el chatbot basado en GPT-3 que permite conversar con la inteligencia artificial y pedirle que cree imágenes según nuestras indicaciones. En este artículo te vamos a contar cómo funciona DALL-E 3, qué novedades trae respecto a DALL-E, qué tipo de imágenes puede crear y qué implicaciones tiene esta tecnología para el futuro del diseño y la comunicación.

¿Cómo funciona DALL-E 3?

DALL-E 3 es un modelo de inteligencia artificial basado en redes neuronales artificiales, concretamente en los llamados transformadores, que son capaces de procesar secuencias de datos, como texto o imágenes, y aprender las relaciones entre ellos.

Este modelo se ha entrenado con una gran cantidad de pares de texto e imagen, extraídos de internet, para aprender a asociar conceptos visuales con palabras. De esta forma, cuando se le proporciona un texto, es capaz de generar una imagen que lo ilustre, usando su propia creatividad e imaginación.

Recibe tanto el texto como la imagen como una sola secuencia de datos, compuesta por un máximo de 1280 tokens. Un token es cualquier símbolo de un vocabulario discreto; por ejemplo, cada letra del alfabeto es un token. El vocabulario de DALL-E 3 tiene tokens tanto para el texto como para la imagen. El texto se representa usando un máximo de 256 tokens codificados con BPE (Byte Pair Encoding), y la imagen se representa usando 1024 tokens codificados con VQ-VAE (Vector Quantized Variational Autoencoder).

DALL-E 3 se entrena usando el método de máxima verosimilitud, que consiste en generar todos los tokens, uno tras otro, maximizando la probabilidad de cada uno dado los anteriores. De esta forma, DALL-E 3 puede crear una imagen desde cero, o regenerar cualquier parte de una imagen existente que se extienda hasta la esquina inferior derecha, siempre que sea coherente con el texto.

¿Qué novedades trae?

DALL-E 3 supone un gran avance respecto a DALL-E en varios aspectos. En primer lugar, DALL-E 3 tiene una mayor resolución y calidad en las imágenes que genera. Mientras que DALL-E creaba imágenes de 256×256 píxeles, DALL-E 3 crea imágenes de 512×512 píxeles, lo que permite apreciar mejor los detalles y las texturas.

En segundo lugar, DALL-E 3 tiene una mayor comprensión y precisión a la hora de interpretar el texto que se le proporciona. Es capaz de captar mejor los matices y las especificaciones del texto, así como las relaciones entre los elementos que componen la imagen. Por ejemplo, puede crear imágenes con texto dentro, como carteles o etiquetas, respetando el idioma y el formato del texto. También puede crear imágenes con partes del cuerpo humano más realistas y proporcionadas, como las manos o los pies.

En tercer lugar, DALL-E 3 tiene una mayor integración y facilidad de uso gracias a su conexión con ChatGPT. ChatGPT es el chatbot de OpenAI basado en GPT-3, el modelo de lenguaje más avanzado del mundo, que permite conversar con la inteligencia artificial y pedirle que haga cosas. Al integrarse con ChatGPT, DALL-E 3 puede recibir instrucciones más detalladas y claras para crear las imágenes, así como ofrecer una retroalimentación más natural y fluida al usuario.

¿Qué tipo de imágenes puede crear DALL-E 3?

DALL-E 3 puede crear imágenes de una gran variedad de conceptos que se puedan expresar en lenguaje natural. Algunos ejemplos son:

Imágenes de objetos o animales antropomorfizados, es decir, con características humanas. Por ejemplo, un gato con traje y corbata, o un elefante con gafas y sombrero.
Imágenes de objetos o animales híbridos, es decir, con características combinadas de dos o más especies. Por ejemplo, un perro con alas de mariposa, o una serpiente con cabeza de león.
Imágenes de objetos o animales modificados, es decir, con características alteradas o añadidas. Por ejemplo, un coche con ruedas de queso, o una flor con pétalos de cristal.
Imágenes de objetos o animales imaginarios, es decir, que no existen en la realidad. Por ejemplo, un unicornio rosa, o un dragón de fuego.
Imágenes de escenas o paisajes ficticios, es decir, que no corresponden a ningún lugar real. Por ejemplo, una ciudad flotante en el cielo, o un bosque encantado.
Imágenes de transformaciones o manipulaciones de imágenes existentes, es decir, que cambian algún aspecto de la imagen original. Por ejemplo, cambiar el color del pelo o los ojos de una persona, o añadir o quitar algún elemento de la imagen.

¿Qué implicaciones tiene DALL-E 3?

DALL-E 3 es una muestra del enorme potencial que tiene la inteligencia artificial para el campo del diseño y la comunicación. Con DALL-E 3 se abre la posibilidad de crear imágenes personalizadas y originales con solo escribir una frase, lo que puede tener múltiples aplicaciones prácticas y creativas.

Por ejemplo, DALL-E 3 podría usarse para:

Crear ilustraciones para libros, revistas o blogs.
Crear logos o carteles para marcas o eventos.
Crear avatares o emojis para redes sociales o juegos.
Crear memes o stickers para compartir con amigos.
Crear bocetos o prototipos para proyectos artísticos o profesionales.
Crear imágenes educativas o divulgativas para explicar conceptos complejos.

Sin embargo, DALL-E 3 también plantea algunos desafíos y riesgos que hay que tener en cuenta. Por un lado, DALL-E 3 puede afectar al trabajo y al reconocimiento de los diseñadores y artistas humanos, que podrían ver amenazada su creatividad y su originalidad por una máquina. Por otro lado, DALL-E 3 puede facilitar la creación y la difusión de contenidos falsos o engañosos, como deepfakes o fake news, que podrían tener consecuencias negativas para la sociedad.

Tu imaginación, ahora sin barreras

DALL-E 3 es la nueva versión de la inteligencia artificial de OpenAI que crea imágenes a partir de texto. DALL-E 3 mejora la calidad y la precisión de las imágenes que genera, así como su integración con ChatGPT. Puede crear imágenes increíbles de una gran variedad de conceptos que se puedan expresar en lenguaje natural. DALL-E 3 tiene un gran potencial para el diseño y la comunicación, pero también plantea algunos desafíos y riesgos que hay que tener en cuenta.

CreativosOnline