Я уже давно хотел попробовать сделать промо-видео полностью с использованием AI-видео. Тема блокчейна и Web3 мне интересна, поэтому я решил объединить эти два направления в одном проекте и проверить, насколько сегодня реально создать визуальный контент с помощью ИИ — от идеи до финального ролика.
Это не туториал и не пошаговая инструкция. Скорее рабочие заметки по ходу проекта: что сработало, что нет и куда на самом деле уходят время, токены и деньги.
Почему я выбрал Higgsfield?
Для этого проекта я выбрал Higgsfield, и на данный момент это мой основной инструмент. Главная причина — количество доступных функций и сама модель подписки.
Higgsfield предлагает тарифы с безлимитным использованием некоторых инструментов, и это полностью меняет экономику работы с ИИ. В AI-креативе большая часть ресурсов уходит не на финальный рендер, а на эксперименты, тесты и неудачные попытки. Почти ничего не получается с первого раза. По крайней мере у меня.

С этой точки зрения безлимитные тарифы для отдельных моделей часто оказываются разумнее, чем жёсткие кредитные системы. Плюс сама платформа активно развивается — регулярно появляются новые инструменты и обновления.
Генерация изображений: NanoBanana Pro и Seed Dreams
Основным алгоритмом для генерации изображений у меня был NanoBanana Pro. Сейчас (Февраль 2026) в Higgsfield он бесплатен до 2k, и все промпты я писал через ChatGPT. На этом этапе ChatGPT по сути становится полноценным prompt-инженером — он генерирует длинные, детализированные запросы, которые во многих случаях действительно хорошо работают.

При этом, если смотреть туториалы Higgsfield и опыт других авторов, становится понятно: промпты не обязательно должны быть очень длинными. Иногда короткое и чётко сформулированное описание действия работает не хуже — а порой даже лучше.
Я также поэкспериментировал с Seed Dreams, и впечатления получились смешанными:
- иногда результат действительно сильный;
- иногда картинка получается довольно случайной;
- создаётся ощущение, что negative prompting не всегда срабатывает так, как ожидаешь;
- реализм может быть нестабильным.
NanoBanana тоже не идеален и время от времени даёт сбои, поэтому я часто переключался между двумя моделями и просто выбирал лучший результат.
NanoBanana

Seedream 4.5 (тот же prompt)

Консистентность персонажа без отдельного обучения LoRA
Одним из приятных сюрпризов стала работа с консистентностью персонажа. Раньше для этого нужно было собирать датасет, обучать LoRA-модель и встраивать её в пайплайн.
Сейчас всё намного проще: берёшь изображение персонажа, добавляешь его как референс и указываешь, что его нужно использовать для сохранения консистентности. Если нужны разные ракурсы, лучше заранее сгенерировать несколько изображений и использовать их все в качестве референсов.

В моём случае большинство кадров были крупными планами, поэтому одного референсного изображения оказалось достаточно.
При этом важно быть реалистом: стопроцентной консистентности всё ещё не существует. Даже с одним и тем же промптом изображения немного отличаются друг от друга, и обычно из нескольких вариантов один заметно лучше остальных. Существенная часть токенов как раз и уходит на этот процесс отбора.
Использовались один и тот же промпт, одна и та же модель и тот же референс.

Почему крупные планы работают лучше всего
Одно из чётких наблюдений: сейчас ИИ намного лучше справляется с крупными и сверхкрупными планами, чем с чем-либо ещё. Если цель — реализм, крупный план почти всегда самый безопасный выбор.
На средних и общих планах качество быстро проседает. Если персонаж начинает говорить в среднем плане, всё часто начинает “разваливаться”. Пока я не тестировал модель, которая стабильно тянула бы реалистичный диалог в среднем плане без заметных артефактов.
Видео: NanoBanana, Cinema Studio и Kling
В итоге я сделал две версии ролика.
Первая версия была собрана на связке NanoBanana Pro + Kling 2.6.
Вторая версия была сделана на связке NanoBanana + Cinema Studio в Higgsfield.
Во втором воркфлоу я сначала экспериментировал с изображениями в NanoBanana Pro, отбирал самые сильные кадры, а затем прогонял их через Cinema Studio — это собственный инструмент Higgsfield.
Самая сильная сторона Cinema Studio — это профили камер. Я пока не видел другого инструмента, где можно так просто выбирать сетап камеры и при этом получать действительно кинематографичный результат.
Есть один важный момент: если просто загрузить изображение в Cinema Studio и нажать Generate, он может немного изменить исходную картинку. Поэтому лучше отдельно указать, что изображение должно остаться без изменений.

По сравнению с Kling:
- движение камеры в Higgsfield можно выбрать напрямую, без ручного прописывания в промпте;
- это быстро и удобно;
- однако Kling всё ещё стабильнее и “умнее”, особенно когда в кадре есть активное движение или взаимодействие.
Cinema Studio лучше всего работает в спокойных, плавных сценах без сложной динамики.
Риски, связанные с артворком и референсами
В процессе возник один важный момент, связанный с генерацией артворка. В одной из сцен персонаж сидит на выставке, и мне стало интересно, не сгенерирует ли ИИ что-то слишком похожее на работы реальных художников.

Проблема оказалась серьёзнее, чем я ожидал. В некоторых случаях ИИ воспроизводил работы почти один в один, фактически подтягивая визуальные референсы из интернета.
В финальной версии я заменил такие изображения на случайно сгенерированный арт в Photoshop, чтобы избежать прямых совпадений и потенциальных проблем.

Если планируете использовать AI-визуалы в коммерческих проектах, этот момент точно стоит перепроверять.
Музыка, звук и голос
Музыку я генерировал через Suno. Здесь есть важный нюанс по лицензии: для коммерческого использования у вас должна быть активная платная подписка именно в момент генерации трека. Вероятность проблем, возможно, и невысока, но проверять это на практике я не хочу.
Чтобы получить подходящий трек, мне понадобилось примерно четыре попытки. Промпты снова писал через ChatGPT. Если сгенерированный промпт оказывается слишком длинным и не помещается, обычно достаточно попросить более короткую версию — это решает проблему.
Звуковые эффекты и голос я делал в ElevenLabs.
Недавно ElevenLabs выпустили модель третьего поколения. Ниже я предлагаю сравнить две аудиодорожки — один и тот же текст, один и тот же голос. Первая была сгенерирована во второй версии модели, вторая — в третьей.
V2
V3
Интересное наблюдение: длинные и детализированные промпты для звуковых эффектов работают хуже, чем короткие описания, написанные простым языком.
Главное преимущество — не нужно копаться в больших библиотеках. Ты просто генерируешь звук, скачиваешь и сразу используешь результат.
Пример длинного промпта:
тихий отдалённый звук огня, очень лёгкое потрескивание, тёплый низкочастотный фон, без резких щелчков, без эха, без ветра, атмосфера древнего интерьера, кинематографично, минималистично, сдержанно, только фоновая атмосфера
Короткий prompt:

Я также протестировал новую модель голоса ElevenLabs V3. Разница по сравнению с предыдущими версиями заметна сразу: голос звучит значительно более естественно и живо, даже при том же самом тексте.
Итоговые мысли
Этот проект в очередной раз подтвердил простую идею: работа с ИИ — это не про “нажать кнопку и получить готовый результат”. Это постоянный процесс экспериментов. Большая часть ресурсов уходит не на финальный рендер, а на поиск нужного результата.
На текущем этапе Higgsfield ощущается как один из самых удобных инструментов для такого формата работы — во многом благодаря модели подписки, разнообразию алгоритмов и активному развитию платформы. Дальше планирую изучать его глубже, особенно в контексте видеопроцессов и проектов с персонажами.

