Desde hace tiempo quería crear un video promocional completamente usando video con IA. Me interesa genuinamente el mundo del blockchain y Web3, así que decidí combinar estos intereses en un solo proyecto y ver qué tan realista es hoy construir contenido visual impulsado por IA, desde la idea inicial hasta el video final.

Esto no es un tutorial ni una guía paso a paso. Es más bien un conjunto de notas de trabajo del propio proceso: qué funcionó, qué falló y en qué realmente se van el tiempo, los tokens y el dinero.

¿Por qué elegí Higgsfield?

Para este proyecto elegí Higgsfield, y por ahora es mi herramienta principal. La razón principal es la cantidad de funciones disponibles y la forma en que están estructuradas las suscripciones.

Higgsfield ofrece planes con uso ilimitado para ciertas herramientas, y eso cambia completamente la economía de trabajar con IA. En el trabajo creativo impulsado por IA, la mayor parte de los recursos no se gasta en el render final, sino en experimentos, pruebas y errores. Casi nada funciona a la primera.

Desde esa perspectiva, los planes ilimitados para ciertos modelos suelen tener más sentido que los sistemas estrictos basados en créditos. Además, la plataforma está evolucionando activamente: aparecen nuevas herramientas y actualizaciones con bastante frecuencia.

Generación de imágenes: NanoBanana Pro y Seed Dreams

Mi principal algoritmo para generar imágenes fue NanoBanana Pro. Por ahora es gratuito hasta 2k dentro de Higgsfield, y todos los prompts los escribí usando ChatGPT. En este punto, ChatGPT funciona prácticamente como un prompt engineer completo: genera prompts largos y detallados que muchas veces dan buenos resultados.

Dicho esto, después de revisar los tutoriales de Higgsfield y la experiencia de otros creadores, algo quedó claro: los prompts no tienen que ser extremadamente largos. A veces, una descripción breve y bien definida de la acción funciona igual de bien — o incluso mejor.

También experimenté con Seed Dreams, y mi experiencia con esta herramienta ha sido bastante mixta:

  • a veces produce resultados realmente fuertes;
  • a veces el resultado es bastante aleatorio;
  • da la sensación de que el negative prompting no siempre funciona como se espera;
  • el realismo puede ser inconsistente.

NanoBanana tampoco es perfecto y a veces presenta fallos, así que con frecuencia alternaba entre ambos modelos y simplemente elegía el mejor resultado.

NanoBanana

Seedream 4.5 (same prompt)

Consistencia de personaje sin entrenamiento separado de LoRA

Una de las sorpresas agradables fue cómo funciona ahora la consistencia de personaje. Antes, para lograr esto era necesario crear un dataset, entrenar un modelo LoRA e integrarlo en el pipeline.

Ahora el proceso es mucho más simple: tomas una imagen del personaje, la añades como referencia y especificas que debe usarse para mantener la consistencia. Si necesitas varios ángulos, es mejor generar varias imágenes con anticipación y utilizarlas todas como referencias.

In my case, most shots were close-ups, so a single reference image was enough. That said, it’s important to be realistic: 100% consistency still doesn’t exist. Even with the same prompt, images vary slightly, and usually one out of several versions is noticeably better than the rest. A significant portion of tokens is spent precisely on this selection process.

Used same prompt, same model, same refernce

Por qué los primeros planos funcionan mejor

Una observación bastante clara: actualmente la IA maneja mucho mejor los primeros planos y los planos muy cerrados que cualquier otro tipo de encuadre. Si el objetivo es el realismo, el primer plano casi siempre es la opción más segura.

En planos medios y generales, la calidad baja rápidamente. Si el personaje empieza a hablar en un plano medio, las cosas suelen empezar a “desarmarse”. Hasta ahora no he probado un modelo que pueda manejar de forma consistente un diálogo realista en planos medios sin artefactos visibles.

Video: NanoBanana, Cinema Studio y Kling

Al final terminé creando dos versiones del video.

La primera versión se hizo usando NanoBanana Pro + Kling 2.6.


La segunda versión se realizó utilizando NanoBanana + Cinema Studio en Higgsfield.

En el segundo workflow, primero experimenté con imágenes en NanoBanana Pro, seleccioné los frames más fuertes y luego los procesé a través de Cinema Studio, que es una herramienta propietaria de Higgsfield.

La mayor ventaja de Cinema Studio son sus perfiles de cámara. No he visto otra herramienta donde puedas elegir configuraciones de cámara tan fácilmente y aun así obtener un resultado realmente cinematográfico.

Un detalle importante: si simplemente subes una imagen a Cinema Studio y presionas Generate, puede modificar la imagen original. Es mejor especificar explícitamente que la imagen debe permanecer sin cambios.

En comparación con Kling:

  • el movimiento de cámara en Higgsfield puede seleccionarse directamente, sin necesidad de escribirlo manualmente en el prompt;
  • es rápido y conveniente;
  • sin embargo, Kling sigue siendo más estable y “más inteligente”, especialmente cuando hay movimiento activo o interacción dentro del encuadre.

Cinema Studio funciona mejor en escenas tranquilas y fluidas, sin dinámicas complejas.

Riesgos relacionados con el arte y las referencias

Durante el proceso surgió un tema importante relacionado con la generación de artwork. En una de las escenas, el personaje está sentado en una exposición, y quise comprobar si la IA generaría algo demasiado parecido a obras de artistas reales.whether the AI would generate something too close to real artists’ work.

El problema resultó ser más serio de lo que esperaba. En algunos casos, la IA reproducía obras casi uno a uno, prácticamente tomando referencias visuales directamente de internet.
En la versión final, sustituí esas imágenes por artwork generado aleatoriamente en Photoshop para evitar similitudes directas y posibles problemas.direct similarities.

Si planeas utilizar visuales generados con IA en proyectos comerciales, este es un punto que definitivamente conviene revisar con cuidado.

Música, sonido y voz

La música fue generada con Suno. Aquí hay un detalle importante sobre la licencia: para uso comercial, debes tener una suscripción de pago activa en el momento exacto en que se genera la pista. Puede que el riesgo real sea bajo, pero prefiero no comprobarlo.

Me tomó alrededor de cuatro intentos conseguir una pista que realmente funcionara. Los prompts, nuevamente, los escribí con ChatGPT. Si el prompt generado resulta demasiado largo y no cabe, normalmente basta con pedir una versión más corta y el problema se soluciona.

Los efectos de sonido y la voz fueron generados con ElevenLabs.

ElevenLabs lanzó recientemente su modelo de tercera generación. A continuación podrás comparar dos pistas de audio: el mismo texto, la misma voz. Una fue generada con la versión dos y la otra con la versión tres.

V2

V3

Una observación interesante: los prompts largos y muy detallados funcionan peor para los efectos de sonido que descripciones cortas escritas en lenguaje simple.

La mayor ventaja es que no tienes que buscar en grandes bibliotecas de sonido — generas el efecto, lo descargas y lo usas inmediatamente.

Ejemplo de un prompt largo:

ambiente sutil de fuego lejano,
crujido muy suave,
sonido cálido de baja frecuencia,
sin chasquidos bruscos,
sin eco,
sin viento,
atmósfera de interior antiguo,
cinematográfico, minimalista, contenido,
solo ambiente de fondo

Short prompt:

También probé el nuevo modelo de voz de tercera generación. La diferencia con respecto a las versiones anteriores es muy evidente: la voz suena mucho más natural y viva, incluso usando exactamente el mismo guion.

Reflexiones finales

Este proyecto volvió a confirmar una idea bastante simple: la IA no se trata de presionar un botón y obtener un resultado terminado. Es un proceso constante de experimentación. La mayor parte de los recursos no se gasta en el resultado final, sino en la búsqueda del resultado adecuado.

En esta etapa, Higgsfield se siente como una de las herramientas más convenientes para este tipo de trabajo, en gran parte gracias a su modelo de suscripción, la variedad de algoritmos y su desarrollo activo. A futuro, planeo seguir explorándolo, especialmente en flujos de trabajo de video y proyectos centrados en personajes.