VAI – Telegram

VAI

Конец недели — а значит, подводим итоги того, что вышло интересного. На самом деле в мире ИИ произошло не так много, но зафиксировать это всё же стоит.

🔹OmniHuman-1.5. Это новая модель для создания анимированных цифровых персонажей. Она может оживлять героя по фото, голосу или тексту: синхронизирует губы, подбирает жесты и мимику, делает движения плавными и осмысленными. В отличие от прошлых решений, OmniHuman-1.5 понимает контекст речи и эмоции, поэтому персонаж реагирует естественно: может петь, жестикулировать или взаимодействовать с другими героями в кадре, оставаясь при этом похожим на оригинал на протяжении всего видео.

🔹PixVerse V5. Это новая версия для создания видео из текста или картинок, которая делает видео более кинематографичными: движения стали плавнее и естественнее, картинка — чётче и реалистичнее, а цвета и стиль — стабильнее между кадрами. Он также хорошо понимает ваши инструкции, быстро генерирует ролики и теперь помогает легко создавать короткие истории, мемы или рекламу — не только для профессионалов, но и обычных пользователей

🔹Higgsfield добавили инструмент UGC Factory. Это новый инструмент от Higgsfield для автоматизированного создания стилизованного пользовательского видеоконтента. Он позволяет по простому шаблону выбрать сцену, загрузить изображение продукта или персонажа, а затем с помощью модели Nano Banana автоматически создать видеокадры с разными углами, композицией и вариациями. В результате вы получаете сразу серию keyframes для UGC-рекламы, с сохранённой целостностью логотипов и форм, синхронизированным голосом, движением и фоном. Особенно удобно для промороликов, обзоров и рекламных вставок без полноценной съёмки

🔹 Tencent представила HunyuanWorld-Voyager. Отголоски прошлой недели. Писал об это ранее. Так как увидел на сайте возможность генерации и прогулки по мирам. Но видимо официальный релиз случился только на этой неделе. Это ИИ, который из одной фотографии делает короткое видео с иллюзией 3D-движения камеры. Он одновременно генерирует картинку и карту глубины, а затем накапливает «мировой кэш» из точек, чтобы новые кадры выглядели согласованными при смене угла обзора. Настоящего 3D-мира внутри нет — это скорее умное подстраивание картинок, которое позволяет «ездить по фото» и создавать ощущение объемной сцены, хотя на деле это последовательность кадров, поддерживаемая точечными облаками. Закинул в комментарии презентацию.

🔹В Midjourney появилась новая вкладка Styles — это библиотека визуальных стилей, которые можно просматривать и применять к изображениям. Во вкладке доступны популярные и случайные стили с примерами, каждый из них подключается к промпту через параметр --sref. Понравившиеся варианты можно сохранять для дальнейшего использования, что упрощает поиск нужного визуального настроения и ускоряет работу с генерацией.

🔹Qwen3-Max-Preview. Это новая, мощная языковая модель от Alibaba с потрясающими характеристиками: у неё более 1 триллиона параметров, и она легко справляется с очень длинным контекстом (до ~262 000 токенов). Модель невероятно быстро отвечает, отлично подходит для сложных логических задач, программирования и работы сразу на английском и китайском языках. К сожалению, она закрыта (не опенсорс), и работает через платные API, но по качеству и скорости сравнима с лучшими коммерческими моделями вроде Claude и GPT. Можно попробовать тут и тут.

🔹 ElevenLabs. Вышел SFX v2: новая версия модели для генерации звуковых эффектов. Обновленная версия генератора звуковых эффектов. Теперь система создаёт звук студийного качества, намного лучше понимает текстовые описания и может генерировать эффекты, которые плавно зацикливаются без слышимых переходов. Улучшены алгоритмы, поэтому стало меньше артефактов, звук звучит естественнее и детальнее, а у пользователя появилось больше контроля над результатом. Это делает SFX v2 удобным инструментом как для профессионального саунд-дизайна, так и для быстрых креативных задач

P.S. Если думали, что я не заметил, то я заметил. Очень рад видеть вас всех тут. Завтра познакомимся 😉.

@VAI_ART
#VAI_News

Please open Telegram to view this post