Как создать рекламный ролик про Web3 и блокчейн с помощью AI-видео: реальный эксперимент и выводы. - Video Editor

Я уже давно хотел попробовать сделать промо-видео полностью с использованием AI-видео. Тема блокчейна и Web3 мне интересна, поэтому я решил объединить эти два направления в одном проекте и проверить, насколько сегодня реально создать визуальный контент с помощью ИИ — от идеи до финального ролика.

Это не туториал и не пошаговая инструкция. Скорее рабочие заметки по ходу проекта: что сработало, что нет и куда на самом деле уходят время, токены и деньги.

Почему я выбрал Higgsfield?

Для этого проекта я выбрал Higgsfield, и на данный момент это мой основной инструмент. Главная причина — количество доступных функций и сама модель подписки.

Higgsfield предлагает тарифы с безлимитным использованием некоторых инструментов, и это полностью меняет экономику работы с ИИ. В AI-креативе большая часть ресурсов уходит не на финальный рендер, а на эксперименты, тесты и неудачные попытки. Почти ничего не получается с первого раза. По крайней мере у меня.

С этой точки зрения безлимитные тарифы для отдельных моделей часто оказываются разумнее, чем жёсткие кредитные системы. Плюс сама платформа активно развивается — регулярно появляются новые инструменты и обновления.

Генерация изображений: NanoBanana Pro и Seed Dreams

Основным алгоритмом для генерации изображений у меня был NanoBanana Pro. Сейчас (Февраль 2026) в Higgsfield он бесплатен до 2k, и все промпты я писал через ChatGPT. На этом этапе ChatGPT по сути становится полноценным prompt-инженером — он генерирует длинные, детализированные запросы, которые во многих случаях действительно хорошо работают.

При этом, если смотреть туториалы Higgsfield и опыт других авторов, становится понятно: промпты не обязательно должны быть очень длинными. Иногда короткое и чётко сформулированное описание действия работает не хуже — а порой даже лучше.

Я также поэкспериментировал с Seed Dreams, и впечатления получились смешанными:

иногда результат действительно сильный;
иногда картинка получается довольно случайной;
создаётся ощущение, что negative prompting не всегда срабатывает так, как ожидаешь;
реализм может быть нестабильным.

NanoBanana тоже не идеален и время от времени даёт сбои, поэтому я часто переключался между двумя моделями и просто выбирал лучший результат.

NanoBanana

Seedream 4.5 (тот же prompt)

Консистентность персонажа без отдельного обучения LoRA

Одним из приятных сюрпризов стала работа с консистентностью персонажа. Раньше для этого нужно было собирать датасет, обучать LoRA-модель и встраивать её в пайплайн.

Сейчас всё намного проще: берёшь изображение персонажа, добавляешь его как референс и указываешь, что его нужно использовать для сохранения консистентности. Если нужны разные ракурсы, лучше заранее сгенерировать несколько изображений и использовать их все в качестве референсов.

В моём случае большинство кадров были крупными планами, поэтому одного референсного изображения оказалось достаточно.

При этом важно быть реалистом: стопроцентной консистентности всё ещё не существует. Даже с одним и тем же промптом изображения немного отличаются друг от друга, и обычно из нескольких вариантов один заметно лучше остальных. Существенная часть токенов как раз и уходит на этот процесс отбора.

Использовались один и тот же промпт, одна и та же модель и тот же референс.

Почему крупные планы работают лучше всего

Одно из чётких наблюдений: сейчас ИИ намного лучше справляется с крупными и сверхкрупными планами, чем с чем-либо ещё. Если цель — реализм, крупный план почти всегда самый безопасный выбор.

На средних и общих планах качество быстро проседает. Если персонаж начинает говорить в среднем плане, всё часто начинает “разваливаться”. Пока я не тестировал модель, которая стабильно тянула бы реалистичный диалог в среднем плане без заметных артефактов.

Видео: NanoBanana, Cinema Studio и Kling

В итоге я сделал две версии ролика.

Первая версия была собрана на связке NanoBanana Pro + Kling 2.6.

Вторая версия была сделана на связке NanoBanana + Cinema Studio в Higgsfield.

Во втором воркфлоу я сначала экспериментировал с изображениями в NanoBanana Pro, отбирал самые сильные кадры, а затем прогонял их через Cinema Studio — это собственный инструмент Higgsfield.

Самая сильная сторона Cinema Studio — это профили камер. Я пока не видел другого инструмента, где можно так просто выбирать сетап камеры и при этом получать действительно кинематографичный результат.

Есть один важный момент: если просто загрузить изображение в Cinema Studio и нажать Generate, он может немного изменить исходную картинку. Поэтому лучше отдельно указать, что изображение должно остаться без изменений.

По сравнению с Kling:

движение камеры в Higgsfield можно выбрать напрямую, без ручного прописывания в промпте;
это быстро и удобно;
однако Kling всё ещё стабильнее и “умнее”, особенно когда в кадре есть активное движение или взаимодействие.

Cinema Studio лучше всего работает в спокойных, плавных сценах без сложной динамики.

Риски, связанные с артворком и референсами

В процессе возник один важный момент, связанный с генерацией артворка. В одной из сцен персонаж сидит на выставке, и мне стало интересно, не сгенерирует ли ИИ что-то слишком похожее на работы реальных художников.

Проблема оказалась серьёзнее, чем я ожидал. В некоторых случаях ИИ воспроизводил работы почти один в один, фактически подтягивая визуальные референсы из интернета.

В финальной версии я заменил такие изображения на случайно сгенерированный арт в Photoshop, чтобы избежать прямых совпадений и потенциальных проблем.

Если планируете использовать AI-визуалы в коммерческих проектах, этот момент точно стоит перепроверять.

Музыка, звук и голос

Музыку я генерировал через Suno. Здесь есть важный нюанс по лицензии: для коммерческого использования у вас должна быть активная платная подписка именно в момент генерации трека. Вероятность проблем, возможно, и невысока, но проверять это на практике я не хочу.

Чтобы получить подходящий трек, мне понадобилось примерно четыре попытки. Промпты снова писал через ChatGPT. Если сгенерированный промпт оказывается слишком длинным и не помещается, обычно достаточно попросить более короткую версию — это решает проблему.

Звуковые эффекты и голос я делал в ElevenLabs.

Недавно ElevenLabs выпустили модель третьего поколения. Ниже я предлагаю сравнить две аудиодорожки — один и тот же текст, один и тот же голос. Первая была сгенерирована во второй версии модели, вторая — в третьей.

Интересное наблюдение: длинные и детализированные промпты для звуковых эффектов работают хуже, чем короткие описания, написанные простым языком.

Главное преимущество — не нужно копаться в больших библиотеках. Ты просто генерируешь звук, скачиваешь и сразу используешь результат.

Пример длинного промпта:

тихий отдалённый звук огня, очень лёгкое потрескивание, тёплый низкочастотный фон, без резких щелчков, без эха, без ветра, атмосфера древнего интерьера, кинематографично, минималистично, сдержанно, только фоновая атмосфера

Короткий prompt:

Я также протестировал новую модель голоса ElevenLabs V3. Разница по сравнению с предыдущими версиями заметна сразу: голос звучит значительно более естественно и живо, даже при том же самом тексте.

Итоговые мысли

Этот проект в очередной раз подтвердил простую идею: работа с ИИ — это не про “нажать кнопку и получить готовый результат”. Это постоянный процесс экспериментов. Большая часть ресурсов уходит не на финальный рендер, а на поиск нужного результата.

На текущем этапе Higgsfield ощущается как один из самых удобных инструментов для такого формата работы — во многом благодаря модели подписки, разнообразию алгоритмов и активному развитию платформы. Дальше планирую изучать его глубже, особенно в контексте видеопроцессов и проектов с персонажами.