
Si te apetece meterte de lleno en la creación de imágenes y vídeo con IA pero sin perder el control fino, estás en el sitio adecuado: ComfyUI es una interfaz por nodos con la que puedes montar tu propio pipeline como si fuesen piezas de LEGO. En esta guía vas a aprender, desde cero y con detalle, a montar flujos de trabajo de efectos visuales (VFX) en ComfyUI, tanto para imagen como para vídeo, sin que se te escape nada importante.
Además de lo básico, veremos flujos de texto a imagen, imagen a imagen, inpainting, outpainting, escalado, ControlNet, SDXL, LoRA y embeddings. Daremos el salto al vídeo con AnimateDiff, HunyuanVideo, LTX Video y Wan 2.1, incluyendo requisitos, instalación, parámetros clave y trucos de productividad con atajos y gestores de nodos. También tocaremos opciones en la nube por si prefieres evitar instalaciones pesadas.
¿Qué es ComfyUI y por qué es ideal para VFX?
ComfyUI es una GUI por nodos para Stable Diffusion que te deja ver y modificar el flujo de datos de principio a fin. Cada nodo hace una tarea concreta (cargar un modelo, codificar texto, muestrear, decodificar VAE, etc.) y se conecta con cables que representan entradas y salidas. Esta filosofía es perfecta para VFX: sabes exactamente dónde entra la señal, dónde se transforma y cómo afectar al resultado.
Frente a interfaces monolíticas, ComfyUI destaca por su transparencia y flexibilidad. El coste de esa libertad es una curva de aprendizaje mayor y cierta dispersión visual (cada workflow puede estar maquetado distinto), pero la recompensa es poder prototipar rápido, depurar con precisión y compartir flujos de forma reproducible.
ComfyUI vs. AUTOMATIC1111
Muchos usuarios llegan desde AUTOMATIC1111, el clásico para Stable Diffusion. ComfyUI gana en ligereza, transparencia y capacidad de prototipado; A1111 se percibe más uniforme y directo, pero menos granular. Si quieres entender el “por dentro” y exprimir VFX, ComfyUI es una apuesta segura.
Primeros pasos y controles básicos
Interaccionar con el lienzo es sencillo: zoom con rueda o gesto de pellizco, arrastrar para moverte, y crear conexiones arrastrando desde la salida de un nodo a la entrada de otro. Verás bloques (nodos) como Load Checkpoint, CLIP Text Encode, KSampler o VAE, y cables que representan el camino de los datos.
Texto a imagen: flujo base y nodos esenciales
El pipeline estándar incluye cargar un checkpoint, codificar el prompt, muestrear en latentes y decodificar a píxeles. Este es el esqueleto sobre el que se construye casi todo en ComfyUI.
Selección del modelo con Load Checkpoint
El nodo Load Checkpoint entrega tres piezas: MODEL (red de predicción de ruido), CLIP (codificador de texto) y VAE (para pasar de píxeles a latentes y viceversa). MODEL alimenta el KSampler, CLIP va a los nodos de texto y el VAE se usa para decodificar el resultado final. Sin checkpoint no hay juego, así que elige uno compatible con tu flujo.
Prompts positivo y negativo con CLIP Text Encode
Usa dos nodos de CLIP Text Encode: el superior para positivo (positive) y el inferior para negativo (negative). El texto se transforma en embeddings de alta dimensión que guían la difusión. Puedes ponderar palabras con sintaxis (término:1.2) para dar más o menos peso a conceptos.
Generación y parámetros de KSampler
Al poner en cola (Queue Prompt) arrancará el muestreo. KSampler controla la semilla, los pasos, el sampler, el scheduler y la fuerza de denoise. Una semilla fija aporta reproducibilidad; más pasos suelen mejorar detalle (a costa de tiempo); denoise=1 en text2img aplica el proceso completo de eliminación de ruido.
Empty Latent Image: resolución y lotes
El nodo Empty Latent Image crea el lienzo latente inicial. Altura y anchura deben ser múltiplos de 8; tamaños típicos: 512/768 para SD 1.5 y 1024 para SDXL. Ajusta el batch size si quieres varias imágenes por ejecución.
VAE: compresión y reconstrucción
El VAE codifica y decodifica entre píxeles y latentes. Proporciona eficiencia y un espacio latente manipulable, a cambio de cierta pérdida o artefactos. En text2img, lo usarás sobre todo al final (VAE Decode) para obtener la imagen en píxeles.
Imagen a imagen, SDXL e inpainting/outpainting
Imagen a imagen
Este workflow combina prompt y una imagen base. Selecciona checkpoint, carga la imagen, revisa prompts y ajusta denoise en KSampler para decidir cuánto te alejas del original (menos denoise = más parecido a la fuente).
SDXL en ComfyUI
ComfyUI soporta SDXL de forma temprana y eficiente gracias a su modularidad. Prepara prompts positivo/negativo y lanza el proceso con el muestreador adecuado; recuerda la resolución óptima del latente (habitualmente 1024).
Inpainting
Para modificar zonas concretas, carga la imagen, abre el editor de máscaras y guarda la máscara en el nodo. Este flujo se hace con modelos estándar; si empleas un checkpoint “inpainting”, usa VAE Encode (Inpaint) en vez de los nodos de VAE Encode y Set Noise Latent Mask estándar. Ajusta el prompt para describir el cambio y una fuerza de denoise típica como 0.6.
Outpainting
Amplía más allá de los límites de la imagen con Pad Image for Outpainting: controla left/top/right/bottom y feathering para transiciones suaves. En VAE Encode (for Inpainting) ajusta grow_mask_by (mejor >10) para conseguir rellenos más naturales y bien integrados.
Escalado: píxel vs latente
Upscale de píxel
Dos vías: por algoritmo (bicubic, bilinear, nearest-exact) con Upscale Image by, o por modelo con Load Upscale Model + Upscale Image (using Model). Los algoritmos son rápidos pero menos finos; los modelos tardan más y suelen ofrecer mejor detalle, y puedes combinar salidas con un pack 50 efectos para After Effects.
Upscale de latente
El llamado Hi-Res Latent Fix escala directamente en el espacio latente, enriqueciendo el detalle durante la reconstrucción. Puede desviarse ligeramente del original y es más lento, pero añade información en lugar de solo estirar píxeles.
Comparativa rápida
Upscale píxel: rápido, sin añadir información nueva, posible suavizado. Upscale latente: más lento, añade detalle pero puede alterar la imagen base. Elige según contexto y fidelidad requerida.
ControlNet: control fino de la estructura
ControlNet aporta guías como bordes, pose, profundidad o segmentación para que el modelo respete estructura. Es una herramienta potentísima para VFX porque fija composición y movimiento de forma consistente. Prueba con Lineart, Depth u OpenPose y ajusta la fuerza para equilibrar fidelidad/creatividad.
Administrador de ComfyUI: nodos personalizados al día
Instalar nodos faltantes
Si un workflow pide nodos que no tienes, usa el Administrador: botón Manager, “Instalar nodos personalizados faltantes”, reinicia ComfyUI y recarga el navegador. Así te aseguras de replicar exactamente el flujo compartido.
Actualizar nodos
Desde Manager, busca actualizaciones y pulsa “Instalar nodos personalizados”. Si aparece “Actualizar” junto a un paquete, aplícalo, reinicia y refresca. Mantener los nodos al día evita errores y mejora funciones.
Buscar nodos en el lienzo
Haz doble clic en el lienzo vacío para abrir el buscador de nodos y añadirlos por nombre. Esto agiliza el montaje de cadenas complejas sin recorrer menús.
Embeddings (inversión textual)
Para activar un embedding escribe embedding:Nombre en el prompt positivo o negativo. Coloca el archivo en ComfyUI/models/embeddings y ComfyUI lo aplicará si encuentra coincidencia. Es una forma potente de incorporar estilos o conceptos concretos.
Autocompletado de embeddings
Instala el paquete ComfyUI-Custom-Scripts para autocompletar. Una vez activo, empezar a escribir “embedding:” mostrará tus embeddings disponibles, acelerando el trabajo con colecciones grandes.
Peso de los embeddings
Puedes ponderar igual que con palabras: (embedding:Nombre:1.2) aumenta influencia y (embedding:Nombre:0.8) la reduce. Ajustar pesos te da un control fino sobre el impacto visual.
LoRA: adapta el estilo sin tocar el VAE
Un LoRA modifica MODEL y CLIP del checkpoint base para introducir estilos, personajes u objetos, dejando VAE intacto. Flujo básico: selecciona checkpoint, añade uno o varios LoRA, revisa prompts y lanza la cola.
Varios LoRA en cascada
Puedes aplicar múltiples LoRA en un mismo flujo; se combinan secuencialmente. Experimenta con el orden y pesos para mezclar estilos de forma creativa hasta dar con el equilibrio deseado.
Atajos y trucos que ahorran horas
Copiar/pegar: Ctrl+C, Ctrl+V y Ctrl+Shift+V para pegar manteniendo entradas. Selecciona múltiples nodos con Ctrl, crea cajas de selección y muévelos con Shift para remaquetar rápido.
Silenciar un nodo con Ctrl+M lo omite temporalmente; minimiza un nodo pulsando el punto de su esquina superior izquierda para despejar el lienzo en proyectos grandes.
Cola de generación: Ctrl+Enter. ComfyUI re-ejecuta nodos solo si cambian entradas; fija semillas para evitar recomputar cadenas largas y ganar tiempo.
Flujo incrustado en PNG: arrastra una imagen generada a ComfyUI para recuperar el workflow de sus metadatos. Es una forma excelente de compartir y versionar pipelines sin perder piezas. Si aprendes mejor con vídeo, consulta 10 videotutoriales rompedores.
ComfyUI para vídeo: AnimateDiff paso a paso
AnimateDiff permite generar secuencias a partir de texto, imágenes o vídeo. Para Windows con NVIDIA, lo óptimo son 10 GB de VRAM (8 GB mínimo con resoluciones más bajas o Txt2Vid); en proyectos exigentes puedes rondar 10 GB con 2 ControlNets.
Instalación y dependencias
Instala Git para clonar nodos y 7-Zip para extraer ComfyUI portátil. FFmpeg es opcional (para empaquetar GIF/MP4 desde nodos combinadores); si no está en PATH, los flujos siguen generando fotogramas sueltos.
Descarga ComfyUI portátil y ejecuta run_nvidia_gpu la primera vez para inicializar. En la carpeta de nodos personalizados, clona ComfyUI-AnimateDiff-Evolved, ComfyUI-Manager, ComfyUI-Advanced-ControlNet y ComfyUI-VideoHelperSuite.
Desde el Manager, instala “ControlNet Auxiliary Preprocessors” y “FizzNodes”. Reinicia ComfyUI para cargar todo correctamente y evitar fallos de importación.
Modelos necesarios
Coloca checkpoints SD 1.5 compatibles en la carpeta correspondiente y un VAE generalista si lo necesitas. Descarga módulos de movimiento (p. ej., los originales de AnimateDiff, TemporalDiff o AD Stabilized Motion) y cópialos en su ruta. Para ControlNet, añade Lineart, Depth y OpenPose (pth/yaml).
Workflows clave: Vid2Vid y Txt2Vid
Vid2Vid: carga un directorio de frames con el nodo de entrada de imágenes/vídeo, controla image_load_cap, skip_first_images y select_every_nth para duración y muestreo. Uniform Context Options es crucial: context length ~16, overlap para continuidad y loop cerrado sólo para Txt2Vid.
Txt2Vid: usa un nodo primario de frames (sin loader de imágenes) y genera directamente a partir del prompt. Con Denoise=1 en KSampler tendrás un efecto plenamente generativo, ideal para clips imaginativos.
Programación de prompts por lotes
El BatchPromptSchedule de FizzNodes permite variar prompts por fotograma. Usa pre_text y app_text para cabeceras y cierres comunes, y define pares “frame: prompt”. Cuidado con la coma final en el último elemento, provocará error; duplica una instrucción si quieres mantenerla entre intervalos.
Ajustes de muestreo y combinación
KSampler para vídeo requiere más pasos (25 como mínimo y mejor al alza). Prueba sampler Euler_a y ajusta CFG al gusto; en Vid2Vid baja denoise para acercarte al clip fuente. El nodo Combine exporta GIF/MP4: define frame_rate, loop_count, formato y si quieres pingpong.
Consejos prácticos: baja la fuerza de ControlNet respecto a imagen fija, prueba OpenPose, usa un segundo KSampler para corrección “hires”. Prueba Motion LoRA para enriquecer movimientos específicos y combina ControlNets con moderación.
Otros motores de vídeo en ComfyUI
HunyuanVideo (img2vid guiado por subtítulos)
Prepara tu imagen a 512×512 y genera un subtítulo con Florence2Run. Reemplaza términos como “imagen/foto/ilustración” por “vídeo” con StringReplace para alinear con el entrenamiento del modelo. Convierte al espacio latente mediante HunyuanVideo Sampler + wrappers, aplica Lora Select y exporta con el combinador.
LTX Video (pipeline por nodos LTX)
Instala nodos y modelos de ComfyUI-LTXVideo (incluye el codificador PixArt-XL). Escribe el prompt en CLIP, crea el latente de vídeo con EmptyLTXVLatentVideo y ajusta LTXVScheduler: el número de pasos sube la calidad, y parámetros como max_shift, base_shift, stretch o terminal moldean el dinamismo del clip. Guarda con SaveAnimatedWEBP (lossless true, calidad 100) o exporta a otros formatos.
Wan 2.1 (texto a vídeo, imagen a vídeo, vídeo a vídeo)
ComfyUI también integra flujos para Wan 2.1. Su uso abarca Txt2Vid, Img2Vid y Vid2Vid, con control de parámetros semejante a los pipelines anteriores y ventajas en consistencia temporal según el caso de uso.
Gráficos en movimiento: segmentación, profundidad y mezcla
Para animaciones tipo motion graphics a partir de vídeo, arranca con LoadVideoInput, controla Skip First Frames y Select Every Nth Frame, y escala con ImageScaleToMegapixels hasta ~1MP. Este preprocesado ajusta carga de VRAM y ritmo de trabajo en la generación. También puedes consultar cómo crear títulos en Premiere para integrar gráficos y créditos.
Segmenta el sujeto usando GroundingDINO y SAM con GroundingDinoSAMSegment a partir de texto. Amplía la máscara con GrowMaskWithBlur y conviértela a imagen con MaskToImage para un contorno más robusto.
Crea una señal temporal con TimeFeatureNode y modúlala con FeatureScaler (lineal, logarítmica, exponencial). Con ello controlarás desplazamientos en profundidad (Z) o posición de máscaras a lo largo del clip para efectos más cinematográficos.
Genera una máscara de repintado dependiente de profundidad con FlexMaskDepthChamber, combinando la máscara del sujeto, la señal temporal y un mapa de profundidad del clip. Ajusta Z Front/Z Back para definir la zona activa en cada momento y lograr un efecto 3D convincente.
En la fase generativa, carga checkpoint, aplica LoRAs, configura prompts y añade ControlNet si procede. Con AnimateDiff obtendrás los frames; después interpola con RIFE VFI para doblar fluidez y suavizar transiciones.
Si quieres mezclar pasadas: genera varias versiones con indicaciones distintas, elige tramos con ImageIntervalSelectPercentage, mezcla transiciones con ImageBlend y concatena con ImageBatchMulti. Un último pase por RIFE VFI deja la animación sedosa y lista para exportar.
ComfyUI online y alternativas en la nube

Si no quieres instalar nada, existen servicios en la nube con ComfyUI preconfigurado, con cientos de nodos/modelos y decenas de workflows listos. Son útiles para pruebas rápidas o para equipos que comparten plantillas sin pelearse con dependencias locales. Como alternativa ligera y rápida, también existen recursos sobre animaciones y efectos visuales en CapCut.
Otra vía es usar generadores de vídeo en la nube como Dreamina: interfaz simple, sin VRAM local y resultados en 20–60 segundos. Ofrece extras como Upscale HD, interpolación de fotogramas y generación de banda sonora, con créditos diarios gratuitos para empezar. Es una alternativa ágil cuando prima la velocidad sobre el control granular.
Rendimiento, requisitos y tiempos
En local, ComfyUI para imagen a vídeo suele pedir entre 8 y 24 GB de VRAM según el modelo (AnimateDiff, HunyuanVideo, LTX Video) y la resolución. Incluso en GPUs potentes, una generación puede llevar 10–30 minutos si el clip es largo o si usas varios ControlNets y pasos altos. En la nube, la carga se traslada al proveedor.
El software de ComfyUI es gratuito, pero el coste está en el hardware y la electricidad si trabajas mucho tiempo. La nube evita ese gasto, a cambio de depender del servicio y de una cuota o créditos. Valora qué compensa más para tu flujo de trabajo.
Solución de problemas habitual
Si ves errores de tipo nulo o nodos que “no existen”, probablemente falten modelos en sus carpetas o dependencias sin instalar. Verifica que cada nodo tenga su modelo asociado y usa el Manager para instalar los paquetes faltantes. Evita repositorios en conflicto si ya usas ComfyUI para otras tareas.
Buenas prácticas para VFX consistentes
Bloquea semillas para reproducibilidad mientras ajustas tramos de la cadena. Guarda imágenes con metadatos de workflow y anota versiones de nodos y modelos. En vídeo, define la longitud de contexto y solapes con cabeza, y mantén un orden claro de ControlNets y LoRAs.
Salta de forma táctica entre upscale píxel y latente según el tipo de plano y el nivel de detalle. En Vid2Vid, reduce denoise para respetar el movimiento base; en Txt2Vid empuja pasos y sampler para ganar estabilidad visual.
Integra preprocesadores de ControlNet (canny, depth, openpose…) desde el Manager para ampliar tu caja de herramientas. Y recuerda: menos fuerza de ControlNet a menudo rinde mejor en vídeo, evitando aspecto de filtro y manteniendo naturalidad.
No dejes de explorar HunyuanVideo y LTX Video si tu caso necesita guías por subtítulos, control de dinámica temporal diferente o pipelines alternativos. Wan 2.1 también suma opciones sólidas para Txt2Vid, Img2Vid y Vid2Vid con parámetros coherentes y resultados competitivos.
Quien busca velocidad y cero fricción puede apoyarse en servicios online, mientras que los que requieren control quirúrgico y reproducibilidad total brillarán con ComfyUI local. Con las piezas que has visto —nodos, parámetros, atajos y flujos— ya tienes el mapa para producir VFX de nivel tanto en imagen fija como en secuencias de vídeo, de forma flexible y escalable.




