D. Lab
1.11K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
Бывший глава правительства Пакистана с помощью нейросетей ведет предвыборную кампанию из тюрьмы

🍌 Имран Хан потерял свой пост премьер-министра весной 2022, когда военные отстранили его от власти, а в августе нынешнего года его задержали и отправили в тюрьму, где он находится до сих пор.

📆 Это не помешало Хану участвовать в кампании перед предстоящими в феврале всеобщими выборами в стране.

🗣 Однопартийцы политика использовали генеративную нейросеть, чтобы создать голосового клона, который зачитывает речи, написанные Ханом в тюрьме.

⚙️ Для создания клона использовался сервис ElevenLabs.

👀 4-минутную речь виртуального Хана можно услышать в конце онлайн-марафона, который транслировался в YouTube. На момент написания текста у видео было 1,6 млн просмотров.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 ИИ-помощник Microsoft научился генерировать песни

У ассистента Copilot появился плагин сервиса Suno — который умеет по промпту генерировать песни в разных стилях с готовым текстом и вокалом.

Продолжительность трека составляет 1–2 минуты.

🎸 Suno запустила команда разработчиков и музыкантов, среди которых выходцы из TikTok и Meta*. Летом сервис (тогда он назывался Bark) по примеру Midjourney запустился на Discord-сервере, у которого на сегодня почти 230 тыс. пользователей.

Осенью команда выпустила ИИ-модель Chirp, на которой теперь работает сервис.

💵 Премиум-пользователи Suno получают права на коммерческое использование генерации. Тем, кто пожадничал на подписку, монетизировать треки запрещено.

🎧 Потестировать музыкальный сервис можно и без Copilot на сайте. Генерация треков происходит за несколько секунд, правда, звучат они как будто через очень дешевые наушники.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Всем обнимашки: Apple показал модель HUGS для анимации аватаров

HUGS (Human Gaussian Splats) с помощью наших любимых гауссиан (а точнее Gaussian Splatting) за полчаса создает продолжительную анимацию из нескольких кадров 🎞.

Готовые аватары в HD и частотой кадров 60 fps затем можно быстро импортировать в NeRF-сцену.

👕 Из минусов: модель пока не способна во всех деталях отрендерить исходное видео, поэтому некоторые моменты (волосы, детали одежды) HUGS додумывает сама.

🔮 Ожидать появление модели в следующем айфоне не стоит — пока технология существует только в виде эксперимента. Но в теории можно представить, что именно такие аватары могли бы появиться в Vision Pro.
🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤑 Stability AI запустила платное членство для коммерческого использования Stable Diffusion

Стартап придумал Stability AI Membership — программу, которая предлагает три уровня членства, в зависимости от того, кто использует нейросети.

1️⃣ Первый уровень — бесплатный — предназначен для простых пользователей (сюда входят и НКО), которые не собираются использовать генерации нейросетей в коммерческих целях.

2️⃣ Второй уровень предназначен для авторов, стартапов и разработчиков, которые ежегодно получают выручку и/или инвестиции менее $1 млн, а также (в случае с сервисами) имеют меньше 1 млн активных пользователей ежемесячно. Таким пользователям нужно будет платить $20 в месяц.

3️⃣ Наконец, последний уровень — Enterprise — предназначен для крупных компаний. В этом случае условия использования Stability AI хотят обсуждать с каждой компанией отдельно.

Все три уровня предлагают доступ к основным продуктам компании (аудио сюда не входит) и ранний доступ к релизам.

🔩 Новая система должна профинансировать разработку будущих версий SD и стандартизировать использование нейросетей от Stability AI.

Как разработчики будут разбираться с теми, кто уже использует нейросеть для своих платных и бесплатных сервисов, не уточняется 🤷‍♀️.

🦙 Что касается платных уровней, то схема похожа на модель распространения Llama — модель с условно открытым кодом, но для которой нужно получать отдельную лицензию после достижения определенного количества пользователей.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
LLM от Google решила нерешаемую задачу, Adobe не смог купить Figma, Microsoft закрыл Mixed Reality — и другие важные новости за неделю

LLM FunSearch от DeepMind смогла найти новые решения для математических задач, с которыми до этого ни разу не встречалась — то есть их упоминания не было в датасете, на котором обучалась модель. По условиям первой задачи необходимо объединить как можно больше точек в пространстве, чтобы три из них не образовали прямую линию. Во второй задаче необходимо упаковать вещи в наименьшее количество контейнеров. Обе задачи считаются «нерешаемыми», так как единого правильного решения для них пока не найдено;

Сделка Figma и Adobe развалилась. Компаниям так и не удалось доказать регуляторам, что покупка разработчиком Photoshop за $20 млрд графического редактора не нарушит антимонопольного законодательства, и они решили просто отказаться от нее. За отмену сделки Adobe выплатит Figma $1 млрд наличными;

Продажи хедсета VisionPro от Apple должны стартовать в феврале. Компании удалось увеличить производство девайса на фабриках в Китае, а уже в январе VisionPro будут готовы для продажи. Apple также разослал разработчикам уведомления с просьбой провести последние тесты своих приложений и отправить их компании на ревью;

Microsoft закрывает платформу Mixed Reality, на которой выходили игры и приложения, поддерживающие VR-шлемы разных производителей. Mixed Reality проработала шесть лет, но виртуальная реальность для Microsoft сейчас не в приоритете: еще в начале года компания сократила целые команды, работавшие над Mixed Reality и хедсетом HoloLens;

Скандально известная языковая модель Gemini Pro от Google оказалась слабее GPT-3,5, выяснили исследователи из университета Карнеги-Меллона. Google на презентации хвастался, что Pro оставляет 3,5 далеко позади. Авторы тестирования предполагают, что в Google использовали собственные бенчмарки, которые завышали показатели модели. Разница в пользу GPT-3,5 оказалась незначительной, тем не менее Gemini Pro проиграла модели, которая вышла на 8 месяцев раньше.
👏3👍21
📝 OpenAI рассказал, как написать хороший промпт

Компания выпустила целый гайд о том, как правильно составить текстовый запрос, чтобы получить от LLM максимально развернутый ответ.

Всего OpenAI выделил 6 эффективных стратегий:

🖋 Задание необходимо четко прописать

Чем меньше модели придется гадать, тем лучше: если ответ нужен краткий, то это надо прописать в промпте, если развернутый — тоже. Проще говоря, LLM нужно указать, в каком формате должен быть ответ.

📚 LLM нужен референс

Чтобы получить четкий ответ без галлюцинаций, модели нужны ссылки на релевантные материалы. Особенно это касается вопросов, которые связаны с конкретным текстом, опубликованным по конкретной ссылке, или наоборот — эзотерических вопросов о смысле жизни. То есть, если хотите получить ответ по конкретному тексту, то скиньте LLM ссылку на этот текст — не тратьте время впустую.

🔨 Сложные задачи надо разбивать на подзадачи

Таким образом, можно значительно снизить процент ошибок, которые может допустить ИИ.

Дайте LLM подумать

Для решения сложной задачи попросите модель использовать метод Chain of Thought, при котором модель описывает каждый шаг, который она делает для решения задачи. Это также снижает вероятность ошибки в ответе.

🛠 Используйте сторонние утилиты

Для LLM существует много дополнений, которые помогают модели лучше справляться, скажем, с написанием кода или анализом информации. Не стесняйтесь использовать эти инструменты.

✔️ Проверяйте результаты LLM с помощью Eval

Для оценки эффективности работы языковой модели необходимы специальные тесты или Eval. Для тестирования LLM можно использовать готовые решения, а можно создать Eval самому. Если говорить упрощенно, то Eval — это золотой стандарт ответов LLM, которому языковая модель должна соответствовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Google показал видеопоэта

VideoPoet — новая LLM компании для генерации и редактирования видео.

📹 Мультимодальная модель может работать в режимах text-to-video, image-to-video и даже video-to-audio. Последнее на практике означает, что VideoPoet генерирует аудио, подходящее к загруженному в LLM видео.

Плюс, поддерживаются стандартные штуки типа стилизации, инпейнтинга и аутпейнтинга.

💬 Специалисты Google не просто так тренировали именно LLM для генерации видео: языковые модели, по словам разработчиков, более гибкие в настройке, лучше оптимизированы и могут выполнять множество разных задач.

Привычные диффузионные модели для каждой новой задачи требуют изменений на уровне архитектуры, а значит, и больших трудозатрат.

Использование LLM для генерации также позволяет создавать более длинные и стабильные видео в отличие от конкурентов: модель сама генерирует «сценарий» для продолжения клипа, беря за основу его последнюю секунду. В теории такой метод можно использовать для создания видео любой продолжительности.

🎞 На видео выше — история енота, сгенерированная VideoPoet, сценарий для которой написал чат-бот Bard. В будущем разработчики хотят прокачать модель до уровня any-to-any — то есть генерации любого контента из любой входящей информации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🎦 В Китае дебютировала ИИ-актриса

Лили Зирен появилась в сериале «Я — никто» (Yi Ren Zhi Xia), спродюсированном развлекательным подразделением холдинга Tencent и основанном на популярной манге.

📰 У виртуальной актрисы уже появилась своя страничка на IMDB.

Лили Зирен «играет» персонажа без рук и ног, который общается с другими путем передачи мыслей на расстоянии. При создании актрисы не использовался CGI, что позволило сократить время на ее «производство» до одной недели 📆.

Нет подробностей того, как создавали Зирен, но, судя по всему, для этого использовали технологию анимации аватара с помощью ИИ (мы о таких не раз рассказывали). Тот же Tencent еще весной представил дешевую технологию создания дипфейк-аватаров.

Сериал вышел на стриминг-сервисе Youku, принадлежащем Alibaba. По сюжету некая тайная организация охотится на главного героя, обладающего суперспособностями. Все эпизоды можно посмотреть на YouTube 🎞.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4🔥2👍1
MIT назвал главные технологические провалы года

MIT Technology Review выбрал 6 технологий, которые в 2023 году не оправдали ожиданий, провалились и даже оказались смертельными:

🤿 Подводный аппарат Titan Одна из главных историй прошедшего лета, завершившаяся трагедией. Titan, разработанный компанией Ocean Gate, опустился на глубину 3500 м к месту, где затонул Титаник, и перестал выходить на связь.

После 4 дней поисков экипаж признали погибшим. На борту, кроме главы Ocean Gate Стоктона Раша, находились туристы. Раша предупреждали, что Titan не выдержит давления на такой глубине.

🥩 Искусственное мясо Оказалось, что технология плохо масштабируется. Производство продукта трудозатратно, из-за чего стоимость искусственной курятины может в 10 раз превышать цену на настоящую птицу. Представители стартапа Upside Foods написали гневный комментарий на текст MIT, но продажи говорят сами за себя — всего 0,5 кг продукта в месяц

🚖 Роботакси Cruise Стартап Cruise, который запустил несколько сотен автономных такси в Сан-Франциско, сразу же столкнулся с проблемами. Одна из машин сбила пешехода, а фотографии пробок из-за роботакси стали вирусными. В итоге власти Калифорнии приостановили разрешение на использование машин.

🛍 Пластик Несмотря на все попытки заменить пластик на экологичные материалы, его производят более 430 млн тонн в год, из которых значительная часть становится мусором

🧷 Ai Pin от Humane Клипса с ИИ еще не продается, но уже разочаровала авторов подборки. Они сомневаются, что девайс за $699 (плюс $24 в месяц за подключение к сети) будет убийцей смартфонов. AI Pin весит как мячик для гольфа, а еще с ним надо взаимодействовать голосом — тот еще вариант для общественных мест

⚡️ «Суперпроводник» LK-99 Корейские ученые объявили, что создали материал LK-99, обладающий свойствами суперпроводника (может работать при комнатной температуре без потери энергии). Ученое сообщество было настроено скептически — и не зря: за прошедшие месяцы никому не удалось доказать, что LK-99 хоть чем-то похож на суперпроводник
2👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌭 Стартап интегрировал LLM в блокчейн

Hitch Interactive представил технологию AI in Immutable Miniverse (ИИ в неизменяемой минивселенной — AIIM).

С помощью AIIM можно использовать языковую модель в NFT (еще помните, что это? 😁), и закодировать в токен информацию, по которой пользователь сможет потом задавать вопросы.

💬 В целом, это напоминает сервисы, которые позволяют «разговаривать» с пдф-ками, только вместо пдф тут нфт.

В качестве эксперимента Hitch Interactive запустил коллекцию токенов Yummy Hamo по цене $1,1 тыс за штуку. В каждый NFT закодирована информация, связанная с кулинарным искусством. Некоторые NFT уже проданы 🤦‍♀️.

Зачем вообще нужны такие NFT? В Hitch считают, что за форматом будущее, так как он позволяет использовать LLM, обученные на кастомной информации, децентрализовано и «индивидуально» на блокчейне, избегая публичных серверов.

Почему LLM нельзя просто запустить локально, обучив на нужной информации, не покупая NFT за тысячу долларов, не уточняется.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎4😁2
🎉 Итоги года «Газпром-Медиа Холдинга»

🤖 «Газпром-Медиа Холдинг», куда входит D.lab, в этом году взял курс на усиление технологического фокуса, в том числе за счет собственных решений с использованием искусственного интеллекта.

Так, в этом году студия нейропродакшена D.lab, которую «Газпром-Медиа Холдинг» запустил в сентябре 2023 года, представила первые демо-образцы AIGC (AI Generated Content) — мультимедийного контента, произведенного ИИ с минимальным участием человека на базе собственных разработок лаборатории ⛹️‍♂️.

🧪 Сейчас D.lab перешла к тестированию своих разработок на проектах «ГПМ Радио», RUTUBE, PREMIER, Yappy.

Решения D.lab позволяют втрое сократить стоимость отдельных производственных процессов и выполнять их за часы и дни, а не за месяцы и годы. Лаборатория готовится предложить свои решения рынку.

Подробнее об итогах года «Газпром-Медиа Холдинга» здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔5👍2👎2🔥21
🗣 Стартап представил систему роялти для клонированных голосов

🔩 DeepDub создает базу голосов, которые компании и студии могут использовать для клонирования.

🎙 Актерам дубляжа предлагается загрузить в базу сэмпл своего голоса и получать роялти каждый раз, когда его выберут для синтезирования с помощью генеративного ИИ.

В базу DeepDub попадают не все: соискателю нужно вместе с аудио отправить анкету, где нужно рассказать об опыте работы, а также приложить файлы с примерами работы 📼.

Голоса можно использовать для озвучки текстов на разных языках, но с сохранением уникальных интонаций актера-человека. При этом DeepDub обещает не использовать голоса ни для каких других целей — между сервисом и актером заключается соответствующий договор 📑.

🛑 Сколько смогут зарабатывать актеры, отдавая свой голос DeepDub, не уточняется. Известно, что владельцы голоса получат роялти только за участие в проекте, никакие выплаты за дистрибуцию и продажу контента получившегося контента не предусмотрены.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔32
Айв и Альтман переманивают ключевых сотрудников Apple, китайский ChatGPT набрал 100 млн пользователей, ИИ-помощник Microsoft появился на Android — и другие важные новости последней недели 2023-го

ИИ-помощник Copilot от Microsoft вышел в виде приложения на Android. По функционалу программа практически идентична приложению ChatGPT, но есть важное отличие: внутри Copilot на Android есть бесплатный доступ к GPT-4, в приложении ChatGPT за него придется заплатить;

Apple незаметно для всех выпустил LLM Ferret. Выпустил еще в октябре, но внимание на нее обратили только сейчас. Ключевая фишка модели — способность определять и анализировать отдельные детали на иллюстрации и отвечать на вопросы по ним;

Газета New York Times (NYT) все-таки подала иск к OpenAI и Microsoft. Мы писали о нем тут — тогда он был на стадии подготовки. Если вкратце — при удовлетворении иска OpenAI, возможно, придется на время отключать GPT и пересобирать все датасеты, где использовались материалы NYT. В газете утверждают, что предлагали компаниям найти досудебное решение проблемы, но так и не дождались внятного ответа;

В этом году бигтехи обогнали венчурных инвесторов по сумме вложений в ИИ-компании. Microsoft, Google и Amazon за год суммарно вложили ⅔ из $27 млрд, которые стартапы получили от инвесторов. Чуть раньше стало известно, что самым активным инвестором в ИИ стала Nvidia;

Из Apple уходит главный по дизайну айфонов. Танг Тан перейдет в стартап Джонни Айва LoveForm, где, предположительно, будет работать над проектом «убийцы смартфонов», который Айв запустил вместе с главой OpenAI Сэмом Альтманом. Подробностей про устройство все еще нет;

Релизная версия Pika наконец-то доступна всем. Один из главных конкурентов GEN-2 с августа был на бета-тесте, в ноябре разработчики анонсировали версию 1.0, которую теперь можно потестить. В России Pika 1.0 доступна через Discord;

Сбер открыл прием заявок на ранний доступ к GigaCode — ИИ-генератору и редактору программного кода. До этого сервис был доступен только внутри компании. GigaCode поддерживает 15 языков программирования и большинство популярных интегрированных сред разработки (IDE);

Разработанный Baidu китайский конкурент ChatGPT под названием Ernie за 4 месяца добрался до отметки 100 млн пользователей. У ChatGPT это заняло 2 месяца. Baidu планирует интегрировать Ernie в большинство своих сервисов.

C наступающим! 🎉
🎉5👍21
На фото: Хедсет для пространственного контента от Sony

❗️Главные новости за новогодние праздники

Возвращаемся с рекапом самого важного, что успело случиться за 1,5 недели поедания оливье 🥗

Google написал «конституцию для роботов»: правила, которые не дадут умным системам подвергнуть опасности живых существ. По факту, это набор «безопасных» промптов для LLM. Вдохновлялись авторы тремя законами робототехники Айзека Азимова;

Маркетплейс чат-ботов GPT Store начнет работать уже на следующей неделе. Запуск откладывали на несколько недель из-за скандала с уходом Сэма Альтмана из OpenAI;

На CES 2024 Sony анонсировала систему для работы с пространственным контентом в VR. Хедсет рассчитан на профессионалов, работающих в 3D, и управляется двумя контроллерами. Цена хедсета пока неизвестна, он должен выйти позднее в этом году;

Netflix хочет добавить встроенные покупки и рекламу в мобильные игры, которые идут вместе с подпиской на сервис. В компании идут дискуссии, как превратить игры в доходный бизнес. В качестве еще одного варианта обсуждается продажа премиум-тайтлов за отдельную сумму (то есть вне подписки);

Volkswagen начнет интегрировать ChatGPT в голосового помощника в новых моделях автомобилей, которые появятся в этом году. С помощью естественного языка в машине можно будет контролировать навигацию, температуру, мультимедийную систему;

По слухам, Midjourney уже в ближайшие месяцы может выпустить модель для генерации видео;

Getty Images выпустило генеративный ИИ, который создает иллюстрации только на основе стоковых фото, принадлежащих агентству. Модель работает на архитектуре Picasso от Nvidia;

С этого года на ПК и ноутбуках, выходящих под брендом Microsoft, появится отдельная клавиша для запуска ИИ-помощника Copilot;

Deloitte выпустил чат-бота PairD для 75 тыс. своих сотрудников. PairD создает презентации, генерирует имейлы и программный код. Сотрудников предупредили, что результаты работы ИИ лучше перепроверять. Перед использованием PairD необходимо пройти курс обучения.
👍42
This media is not supported in your browser
VIEW IN TELEGRAM
👾 Nvidia показала NPC будущего. Не опять, а снова

Полгода назад компания уже выпускала ролик, в котором демонстрировались возможности ИИ для генерации диалогов в реальном времени.

💬 На CES Nvidia показала прогресс, которого удалось достичь за 6 месяцев: теперь двое NPC без участия игрока вступают в развернутые диалоги на разные темы (диалоги генерятся заново при каждом запуске уровня).

Кроме того, в клипе можно подробнее увидеть систему голосового взаимодействия с неигровыми персонажами. Сначала голос игрока обрабатывает модель распознавания речи от Nvidia, которая переводит аудио в текст. Далее текст передается на LLM, которая генерирует подходящий по смыслу ответ 🖥.

🙂 После этого текст, сгенерированный LLM, обрабатывает text-to-speech модель, которая создает речь NPC. Для дополнительного реализма Nvidia использует Audio-to-Face модель, которая генерирует корректную лицевую анимацию персонажа, синхронизированную с речью.

На CES Nvidia показала еще одну интересную штуку: набор моделей для распознавания речи Parakeet, которые Nvidia разрабатывала совместно с модными ребятами из Suno. Разработчики говорят, что по отдельным бенчмаркам Parakeet делает Whisper от OpenAI. Для запуска моделей потребуется тулкит Nvidia NeMo.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
🎞 Новый Fairy — теперь не средство для мытья посуды, а video-to-video модель

Meta* представила новую нейросеть для редактуры готовых видео через промпты.

⌚️ Утверждается, что Fairy в 44 раза быстрее удаляет жир с посуды справляется с редактурой по сравнению с предыдущими моделями этих же разработчиков.

Например, на видео в разрешении 512*384 из 120 фреймов у модели уходит около 14 секунд.

🔩 При такой скорости работы генерации модели отличаются высокой консистентностью за счет использования cross frame attention. Этот механизм позволяет «удерживать» работу диффузионной модели на протяжении всей продолжительности видео при промптах разной сложности, избегая глюков и артефактов.

🔥 Высокая консистентность идет в ущерб при генерации «динамичных» эффектов вроде огня или дождя, с которыми Fairy справляется, по словам самих разработчиков, слабо.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🐰 Главный хит CES 2024 — карманный ИИ-помощник за $199

На технологической выставке показали новое устройство, которое пытается переосмыслить, как должны выглядеть и работать гаджеты в эпоху генеративного ИИ.

📱 R1 от стартапа Rabbit позиционирует себя не как убийцу смартфонов, а как помощника со встроенной Large Action Model (LAM). Он берет на себя часть задач, которые обычно выполняют телефоны.

⚙️ Основная фишка устройства в том, что оно самостоятельно взаимодействует с приложениями (без сторонних API) и понимает естественный язык. Для этого на R1 (как на рации) нужно зажать кнопку и произнести команду — например, попросить заказать такси в Uber. R1 также может забронировать отель или авиабилет, найти ресторан или добавить песню в плейлист.

Благодаря LAM устройство можно самостоятельно обучить взаимодействию с приложениями и выполнять кастомные задачи разной сложности по голосовой команде 🗣.

🔩 R1 выглядит как карманная консоль от Nintendo, которая так и не добралась до магазинов. Устройство оснащено 3-х дюймовым тачскрином, колесиком для навигации, камерой и слотом для SIM-карты. Также есть поддержка Wi-Fi. Внутри у R1 собственная ОС Rabbit, 4 Гб памяти, 128 Гб свободного места и процессор на 2,3 Ггц. Обещают, что от одной зарядки устройство может работать целый день. Пока не понятно, зачем устройству нужна камера.

🤟 Девайс стал настоящим хитом CES, про который профильная пресса написала с гораздо большим энтузиазмом, чем про выходящий в марте AI Pin. Разработку Humane в основном ругали за высокую стоимость и неясное позиционирование.

🔜 Rabbit уже объявили, что первая партия из 10 тыс. устройств продана, поставки начнутся весной.

Большую презентацию устройства можно посмотреть здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🤔3
💋 ByteDance выпустила нейросеть, которая делает красиво

Основная задача MagicVideo-V2 — создавать визуально богатые генерации. Не случайно полностью text-to-video модель называется Multi-Stage High-Aesthetic Video Generation.

На деле это означает, что на фоне генераций от Pika или GEN-2 результат работы MagicVideo выглядит как диснеевский мультик: куча блюра, отражений, particle-эффектов и т. д. Все это — с плавной сменой кадров 💃.

🔩 «Красивость» достигается в несколько этапов: сначала модель по пользовательскому промпту генерит изображение, которое затем анимируется в разрешении 600*600 с 32 кадрами. На финальном этапе подключается video-to-video модуль, который апскейлит клип до 1048*1048, а количество кадров увеличивается до 94 для плавности анимации.

📊 Опрос ByteDance показал, что генерации MagicVideo более чем в половине случаев нравятся пользователям больше, чем генерации конкурентов.

🖼 Выглядят клипы и правда симпатично (как анимированный пост в Instagram* с кучей фильтров), но если вам по душе реалистичность, то это явно не по адресу.

*Instagram входит в Meta — организацию, запрещенную на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5