
Si trabajas con arte generativo y efectos visuales, ComfyUI es ese panel de control que te permite hilar fino y construir imágenes, animaciones e incluso vídeos con una precisión quirúrgica. Su enfoque por nodos y flujos de trabajo encadenados lo convierte en una herramienta ideal para quienes quieren comprender y controlar lo que pasa en cada etapa de Stable Diffusion.
En las próximas secciones vas a encontrar una guía profunda y práctica para dominar ComfyUI en proyectos creativos avanzados: desde texto a imagen, imagen a imagen, SDXL, inpainting y outpainting, hasta escalado, ControlNet, embeddings, LoRA, atajos esenciales y workflows de vídeo con Stable Video Diffusion y AnimateDiff. Todo con un tono ameno, ejemplos concretos y consejos para evitar cuellos de botella y errores típicos.
Qué es ComfyUI y en qué destaca frente a otras interfaces
ComfyUI es una GUI modular basada en nodos para Stable Diffusion que te deja construir procesos a medida conectando piezas como si fueran bloques de Lego. Cada nodo cumple una función (carga de modelo, codificación de texto, muestreo, decodificación, etc.) y se enlaza con otros a través de “bordes” que llevan datos de una etapa a la siguiente.
Comparado con AUTOMATIC1111, ComfyUI ofrece mucha más transparencia y flexibilidad. Puedes ver y modificar el flujo exacto de datos, compartir workflows reproducibles y prototipar variantes sin tocar código. La contrapartida es que la interfaz puede resultar más cambiante entre proyectos y requiere acostumbrarse a “pensar en nodos”.
Si es tu primera vez, no te preocupes: lo ideal es arrancar con un flujo básico, ejecutar, y luego ir añadiendo o sustituyendo nodos para entender qué aporta cada pieza. Al final, esa curva de aprendizaje paga dividendos en control creativo y rendimiento.
Bloques esenciales: nodos, conexiones y controles básicos
En el lienzo de ComfyUI verás “cajas” (nodos) con puertos de entrada y salida. Arrastra desde una salida hacia una entrada compatible para crear una conexión; al soltar, puedes elegir el siguiente nodo recomendado. Si necesitas eliminar algo, selecciónalo y pulsa Supr, y si quieres empezar de cero, usa la opción Clear.
Navegar es muy sencillo: zoom con la rueda del ratón o gesto de pinza, arrastrar para moverte por el lienzo y clic sostenido en puertos para crear enlaces. Minimiza nodos con el punto en la esquina superior izquierda cuando necesites despejar la vista.
Un truco práctico: cuando estás probando parámetros, sustituye Save Image por Preview Image. Así no llenas el disco con resultados temporales mientras iteras en tu pipeline.
Texto a imagen paso a paso: del prompt al píxel
El flujo clásico text-to-image se construye con unos cuantos nodos clave. Empiezas cargando un checkpoint, codificas tu prompt, generas latentes con KSampler y decodificas con el VAE para obtener la imagen final.
Selección del modelo con Load Checkpoint
El nodo Load Checkpoint entrega tres salidas principales: MODEL (UNet), CLIP (codificador de texto) y VAE. MODEL se conecta al KSampler, CLIP a los nodos de texto, y el VAE a la parte de codificación/decodificación de la imagen. Si no ves tu modelo en la lista, colócalo en la carpeta de checkpoints configurada por ComfyUI.
Prompts positivo y negativo con CLIP Text Encode
Usarás dos nodos CLIP Text Encode: uno para el prompt “positive” y otro para el “negative” del KSampler. CLIP transforma tus palabras en embeddings de alta dimensión que guiarán la eliminación de ruido. Puedes ponderar términos con sintaxis tipo (palabra:1.2) para darles más peso o (palabra:0.8) para restarlo.
Si trabajas con embeddings personalizados, también puedes referenciarlos por nombre. Es una forma de inyectar conceptos o estilos aprendidos directamente en el texto que guía la generación.
Imagen latente y tamaños recomendados
La generación arranca en un espacio latente. Con el nodo de imagen latente vacía defines altura, anchura y tamaño de lote. Para SD 1.5, 512×512 o 768×768 funcionan muy bien; para SDXL, lo óptimo suele ser 1024×1024. Recuerda que la resolución debe ser múltiplo de 8 por la arquitectura del modelo.
VAE: del latente al píxel (y viceversa)
El VAE comprime y reconstruye, conectando el mundo de los píxeles con el de los latentes. Se decodifica al final para obtener la imagen visible, aunque en tareas como inpainting también puedes codificar desde una imagen de entrada. A cambio de eficiencia, existe una ligera pérdida: pueden aparecer pequeños artefactos respecto a la imagen ideal.
KSampler: el corazón de la difusión
Este nodo es quien va quitando ruido iterativamente hasta materializar el contenido guiado por tu prompt. Parámetros clave: seed (repetibilidad), steps (detalle y limpieza), sampler y scheduler. El control denoise regula cuánto reescribe; a 1 parte de ruido completo, y a valores menores conserva más de la señal de origen (útil en imagen a imagen).
Un ajuste útil es control_after_generation, que define qué hace la semilla tras cada ejecución. Puedes dejarla fija, incrementarla, decrementarla o aleatorizarla para variar salidas sin tocar nada más.
Imagen a imagen, SDXL, inpainting y outpainting
El salto a workflows de imagen a imagen añade una entrada de imagen y ajusta el denoise para balancear fidelidad con creatividad. A menor denoise, más respeto por la foto original; a mayor, más libertad para reinterpretar.
SDXL funciona de forma similar, solo que con resoluciones mayores y un sistema de encoding más rico. Si tu GPU lo permite, muévete en 1024×1024 y vigila el consumo de VRAM. Verás mejoras en detalle, coherencia y colorimetría.
Para inpainting, carga la imagen y define la máscara de edición en el MaskEditor. Usa VAE Encode (para inpaint) y configura la fuerza de denoise para decidir cuánto se regenera. Recuerda que hay checkpoints específicos de inpainting, aunque también puedes trabajar con uno estándar ajustando los nodos adecuados.
En outpainting se expande el lienzo con Pad Image for Outpainting. Controla left, top, right, bottom para añadir píxeles, aplica feathering para suavizar el empalme y utiliza grow_mask_by en la codificación de inpaint (valores mayores de 10 suelen dar transiciones más naturales).
Escalado: píxel vs latente y cuándo elegir cada uno
El escalado en ComfyUI se puede abordar de dos formas. Upscale pixel agranda la imagen visible (rápido y sencillo, con algoritmos como bicubic, bilinear o nearest-exact), mientras que Upscale latent reinterpreta en el espacio latente (más tiempo, pero añade detalle y textura).
Si quieres sacar lo máximo de un render, prueba el escalado por modelo con Load Upscale Model junto al nodo Upscale Image (using Model). Escoge modelos especializados (p.ej., anime o realista) y factores 2x o 4x según el objetivo final.
Cuando busques fidelidad absoluta al original, el escalado de píxel es tu aliado. Si te interesa enriquecer la imagen con más información y microdetalle, entonces la ruta latente brilla (también conocida como “Hi-res latent fix”).
ControlNet: control preciso con bordes, pose, profundidad y segmentación
ControlNet permite condicionar la generación con mapas estructurales y efectos especiales como lineart, profundidad, OpenPose o segmentación. Es ideal para replicar encuadres, poses o siluetas sin renunciar al estilo que marca el texto. Ajusta la fuerza del control para equilibrar guía y libertad.
Un flujo típico incluye un preprocesado (por ejemplo, extraer borde o pose de una imagen) y el modelo ControlNet correspondiente. Con dos o más ControlNet puedes imponer reglas complementarias (p.ej., pose humana + profundidad) logrando resultados muy consistentes.
ComfyUI Manager: instala, actualiza y busca nodos desde la interfaz
El Administrador de ComfyUI simplifica la vida cuando un workflow te pide nodos personalizados que no tienes. Desde el propio menú, instala los faltantes y reinicia ComfyUI para que queden disponibles. También puedes chequear actualizaciones y aplicar cambios con un clic.
Para añadir nodos a tu lienzo, haz doble clic en un área vacía y abre el buscador. Es una forma rápida de localizar y crear el bloque exacto que necesitas sin navegar por largos menús.
Embeddings: conceptos y estilos personalizados en tus prompts
Los embeddings (también llamados text inversion) son “palabras” nuevas que contienen un estilo o concepto aprendido, como filtros o efectos alucinantes. Solo tienes que escribir algo como embedding:NombreDelEmbedding en el prompt y ComfyUI buscará el archivo correspondiente en la carpeta de embeddings.
Si manejas muchos, el autocompletado es oro. Con nodos como ComfyUI-Custom-Scripts obtienes sugerencias al escribir “embedding:”, lo que agiliza la selección y reduce errores de tecleo.
Puedes ponderar un embedding igual que un término normal. La sintaxis tipo (embedding:Nombre:1.2) aumenta o reduce su influencia. Experimentar con pesos es clave para lograr el equilibrio entre estilo y contenido.
LoRA: adapta tu checkpoint y combina varios estilos
LoRA es un ajuste fino ligero que modifica el MODEL y el CLIP del checkpoint sin tocar el VAE. Sirve para inyectar estilos, personas u objetos específicos con poco peso y gran versatilidad. El flujo básico: cargar checkpoint base, añadir LoRA, definir prompts y lanzar.
¿Varios LoRA a la vez? Perfectamente posible. Se aplican en cascada y cada uno construye sobre el anterior. Si necesitas control granular, usa nodos de “stack” que permiten activar/desactivar y ajustar fuerza por cada LoRA.
Atajos y trucos para trabajar más rápido
La productividad en ComfyUI sube cuando dominas sus atajos. Copiar/pegar (Ctrl+C / Ctrl+V), pegar conservando entradas (Ctrl+Shift+V), seleccionar múltiples nodos con Ctrl, mover en bloque con Shift, o silenciar temporalmente un nodo con Ctrl+M para omitirlo.
Los PNG generados guardan el workflow incrustado como metadatos. Arrastra un PNG al lienzo de ComfyUI para reconstruir el flujo exacto que lo originó. Es fantástico para archivar versiones o compartir con otros.
Otro consejo clave: fija semillas cuando encadenas procesos largos. ComfyUI solo reejecuta un nodo si cambia su entrada, así que mantener la seed estable te evita recomputar piezas que ya tienes.
Descargar e importar workflows de terceros
Una forma excelente de aprender es cargar workflows ajenos y trastear. Descarga el JSON, descomprímelo si va en ZIP, e impórtalo en el lienzo. Si ves errores por nodos ausentes, instálalos con el Manager y reinicia.
Muchos workflows incluyen dos variantes: una “normal” y otra con escalado adicional. Inspecciona los nodos ampliando la vista y revisa parámetros con lupa para entender las decisiones de quien lo creó. Tras resolver dependencias, pulsa Queue Prompt y observa el resultado.
Stable Video Diffusion (SVD): de imagen fija a clip animado
SVD extiende el paradigma de difusión al tiempo, generando clips cortos a partir de imágenes. Hay variantes para 14 y 25 fotogramas (SVD y SVD-XT) con resolución típica de 576×1024 y fps configurables entre 3 y 30. Se entrena sobre grandes conjuntos de vídeo y refina con material de alta calidad.
En ComfyUI puedes ajustar tres parámetros cruciales. El ID del “bucket” de movimiento controla la intensidad del desplazamiento, los fps marcan la velocidad de reproducción, y el “nivel de aumento” decide cuánta transformación aplicar desde la imagen base (más ruido implica cambios más creativos).
La U-Net integra atención temporal para tratar la secuencia de fotogramas como un volumen coherente. Esto permite eliminar ruido en todos los frames simultáneamente y mantener continuidad visual, reduciendo parpadeos entre imágenes.
AnimateDiff en ComfyUI: texto a vídeo y vídeo a vídeo
AnimateDiff te permite generar secuencias animadas partiendo de texto (txt2vid) o transformar secuencias de imágenes (vid2vid). Para trabajar cómodo en resoluciones medias con dos ControlNet, se recomienda una GPU NVIDIA con 10 GB de VRAM; con 8 GB se puede bajar resolución o ceñirse a txt2vid más contenido.
Herramientas útiles para preparar el entorno: Git para clonar nodos, 7-Zip para extraer el paquete portable de ComfyUI y, opcionalmente, FFmpeg para codificar GIF o MP4 desde nodos combinadores (consulta videotutoriales para crear efectos artísticos). Si FFmpeg no está en PATH, los flujos siguen generando imágenes, pero los nodos de vídeo pueden fallar al empaquetar.
Instala ComfyUI portable, ejecuta el script adecuado (por ejemplo, run_nvidia_gpu) y añade nodos personalizados clave: AnimateDiff Evolved, ComfyUI-Manager, Advanced ControlNet y VideoHelperSuite. Desde el Manager instala también preprocesadores auxiliares de ControlNet y FizzNodes para scheduling avanzado.
Modelos necesarios: checkpoints SD 1.5 compatibles, un VAE sólido, módulos de movimiento para AnimateDiff (originales o optimizados como TemporalDiff o versiones estabilizadas) y modelos ControlNet como Lineart, Depth u OpenPose. Coloca cada archivo en su carpeta correspondiente (checkpoints, vae, controlnet, motion) para que aparezcan en los selectores de los nodos.
Nodos y parámetros específicos de vídeo
Para vid2vid, usa un Image Loader apuntando a una carpeta de fotogramas. image_load_cap limita cuántos frames se cargan, skip_first_images salta los iniciales, y select_every_nth submuestrea la secuencia (por ejemplo, 2 para tomar un frame de cada dos).
El color de los nodos de prompt puede personalizarse para identificarlos rápido. Verde para positivo, rojo para negativo es un patrón común, aunque no afecta al funcionamiento. Revisa siempre que tus nodos de carga de modelos apunten a archivos existentes.
Las opciones de contexto uniforme extienden la longitud “efectiva” de la animación. Define context length (p.ej., 16), overlap (solape entre ventanas), y, si procede, el modo de bucle. El parámetro context stride intenta crear una pasada global y rellenar intermedios, pero puede incrementar notablemente el tiempo de cómputo.
FizzNodes aporta un programador de prompts por lotes muy flexible. Usa pre_text y app_text para prefijos y sufijos y define cambios por frame con pares del tipo número_de_frame: prompt. Evita poner comas extra al final para no provocar errores de parsing.
En KSampler, sube steps por encima de 20 para vídeo. CFG se trata como en imagen; prueba distintos samplers (Euler_a suele ir bien). En vid2vid, reduce denoise si quieres mantener gestos y composición originales, y súbelo para una reinterpretación más libre.
El nodo combinado de AnimateDiff empaqueta secuencias. Elige formato (gif/mp4), frame_rate, loop_count y pingpong si quieres reproducir en ida y vuelta. Activa “guardar imagen” para conservar al menos un frame con metadatos del workflow.
Consejos de trabajo y resolución de problemas
Para mayor control, añade un segundo KSampler de refinado al final. Prueba también Motion LoRA y redes de control más suaves que en imagen estática: en vídeo, demasiada fuerza puede “rigidizar” el movimiento. OpenPose es excelente para preservar gestos humanos.
Si aparecen “errores de tipo nulo”, verifica que cada nodo de carga tiene un modelo seleccionado. Ten en cuenta que algunos repositorios de nodos pueden chocar entre sí si ya usas ComfyUI para más tareas; desactiva los conflictivos o crea entornos separados.
En vid2vid, prepara la secuencia a 12–15 fps si te interesa aligerar el proceso. Puedes usar herramientas online o editores para extraer frames y reducir la cantidad total antes de cargar en ComfyUI. Ajusta luego el frame_rate final del empaquetado según la estética que busques.
Buenas prácticas de rendimiento y organización
Fija seeds cuando encadenes varias etapas y usa grupos para mover bloques relacionados. Minimiza nodos secundarios para ver el “esqueleto” del flujo y alterna entre nodos Save/Preview según estés en fase de prueba o de render definitivo.
Mantén actualizados los nodos con el Manager y documenta tus variantes guardando una imagen por cada iteración relevante. Como ComfyUI incrusta el workflow en el PNG, tendrás un historial perfecto del proceso sin perder el hilo.
Y, si no quieres instalar nada, existen opciones en la nube donde puedes abrir workflows preparados y modelos populares en segundos. Es una vía rápida para prototipar o trabajar desde equipos más modestos sin renunciar a nodos avanzados.
La combinación de ComfyUI, ControlNet, LoRA, embeddings y módulos de vídeo forma hoy un ecosistema potentísimo. Con práctica, aprenderás qué pieza tocar para cada objetivo estético, ya sea un retrato hiperrealista, una ampliación limpia, un inpaint preciso o un clip con movimiento coherente y estilizado.
Todo lo visto dibuja un mapa claro: arranca con flujos básicos, añade control paso a paso y consolida tus plantillas para repetir resultados. Cuando interiorizas la lógica de nodos y conoces los parámetros clave, ComfyUI se convierte en una máquina de ideas lista para cualquier proyecto de efectos visuales con Stable Diffusion, tanto en imagen como en vídeo.





