D. Lab
1.1K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
🎦 DeepMind разработал нейросеть, которая пишет саундтреки к видео

V2A (Video-to-Audio) умеет генерировать звуковую дорожку на основе видео, которая сразу синхронизируется с происходящим в клипе.

💣 Генерируемое аудио может быть разнообразным: аудиоэффекты, музыка, диалоги.

⌨️ Диффузионная модель опционально поддерживает промпты. V2A можно обозначить, каким именно должен быть саундтрек или, наоборот — чего при озвучании надо избегать (то есть можно использовать позитивные и негативные текстовые подсказки).

💬 Для более качественных генераций V2A тренировали не только на видео- и аудиоинформации, но и на сгенерированных ИИ текстовых описаниях происходящего в клипах.

🔨 Звучит круто, но потестить V2A пока никому не дадут — модель еще слишком сырая и требует серьезных доработок.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3😱2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦒 Крупнейший в США продавец игрушек выпустил рекламу, сгенерированную Sora

Ритейлер Toys R Us (1,5 тыс. магазинов более чем в 30 странах) выпустил рекламный ролик, почти полностью созданный с помощью нейросети Sora.

🤝 Ролик был создан вместе с креативным агентством Native Foreign и представлен на недавно прошедших Каннских львах — ключевым фестивалем для производителей рекламы.

💡 В минутном клипе юному Чарльзу Лазарусу — будущему основателю Toys R Us — приходит в голову идея открыть магазин игрушек, не похожий на другие. В этом ему помогает игрушечный жираф.

🔩 Помимо Sora, при создании ролика авторы использовали оригинальный саундтрек (в смысле, созданный людьми) и дополнительные спецэффекты. В Native Foreign не вдаются в подробности, но, как и другие пользователи Sora, говорят, что для создания ролика потребовалась не одна итерация, прежде чем он стал выглядеть как надо.

🤷‍♀️ Запускать рекламную кампанию с использованием клипа Toys R Us пока не планируют.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 Kling научилась удлинять видео и создавать клипы по картинке

Один из наиболее перспективных конкурентов Sora получил первый апдейт — теперь генерации можно создавать по картинке-референсу, а также растягивать хронометраж клипа до трех минут.

Чтобы попробовать нейросеть, не будучи жителем Китая, все еще нужно сильно постараться.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Sony прощается с VR, OpenAI купил две компании за неделю, Meta* тестирует пользовательских чат-ботов — и другие важные новости за неделю

OpenAI зарабатывает на продаже своих сервисов больше, чем когда-то взявший стартап под крыло Microsoft. Это интересно, так как до середины прошлого года у OpenAI даже не было полноценного отдела продаж. Уже в марте этого года стартап вышел на прогноз по выручке в $1 млрд, а Microsoft на это понадобилось еще несколько месяцев (имеются в виду именно продажи сервисов OpenAI);

Телеканал NBC использует в эфирах с грядущей Олимпиады в Париже клонированный с помощью ИИ голос ведущего Эла Майклса. Майклс — легендарная для американской аудитории личность и даже входит в Зал славы спортивных ведущих США. 80-летний Майклс жив-здоров, но в 2021 году ушел на пенсию. Поэтому NBC обратились к нему с предложением натренировать ИИ на его прошлых трансляциях. Клонированный ведущий будет зачитывать в эфире главные события за прошедший день Олимпиады;

Meta* начала тестировать пользовательских чат-ботов в Instagram**. Идея этих ботов в том, чтобы заменить контент мейкеров для выполнения некоторых рутинных задач (например, отвечать на личные сообщения и комментарии поклонников), при этом сохранив стиль общения автора. Тестирование пока ограничено американскими пользователями;

YouTube ведет переговоры с крупными рекорд-лейблами, чтобы получить разрешение использовать записи их музыкантов для обучения ИИ. Получать многомиллионные иски видеохостингу, очевидно, не хочется, а вот создать конкурента Suno и Udio — очень даже;

На этой неделе OpenAI впервые купила сторонние компании. Сначала стартап сообщил о покупке аналитической платформы Rockset, а затем — о приобретении Multi, сервиса для удаленной совместной разработки программного обеспечения;

Стартап Etched анонсировал процессоры Sohu, которые в 20 раз быстрее H100 от Nvidia при работе с ИИ-моделями. Есть одно но — Sohu заточен только под работу с моделями, созданными на архитектуре трансформер, и никакими другими. С другой стороны, именно на этой архитектуре построены все основные нейросети — от GPT до Stable Diffusion. Разработчики пока не говорят, когда Sohu поступит в продажу;

Создатели популярной нейросети для синтеза и клонирования голоса ElevenLabs выпустили приложение для iOS. По сравнению с веб-версией у ElevenLabs Reader ограниченный, но заточенный под смартфон функционал — она зачитывает любой текст (файлы, странички, заметки) качественным синтетическим голосом. На старте будет только поддержка английского, но потом обещают добавить еще почти три десятка языков. В Европе Reader станет доступен с 11 июля, версия для Android будет позже;

Т-Банк (бывший Тинькофф) запустил ИИ-помощника специально для детей. Джуниор-ассистент будет обучать ребенка финансовой грамотности, но может побеседовать и на отвлеченные темы, учитывая при этом «эмоциональный настрой» ребенка. Джуниор-ассистент вошел в ранее запущенную банком Вселенную ассистентов;

Sony, судя по всему, потихоньку сворачивает свой VR-проект. Как утверждают инсайдеры, в разработке для хедсета PSVR 2 находятся всего две игры (которые не факт, что выйдут), денег на другие проекты в бюджете Sony не предусмотрено. До этого компания распустила несколько студий, которые разрабатывали VR-игры. PSVR 2 поступил в продажу в феврале 2023 года.

*Организация, запрещенная на территории РФ

**Instagram входит в Meta — организацию, запрещенную на территории РФ
🤔3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎶 Sony разработала «профессиональную» нейросеть для музыкантов

Главная фишка Diff-A-Riff — в том, что она умеет генерировать инструментал к уже готовой композиции с учетом стиля и тональности трека. Это отличает ее от любительских генераторов вроде Suno и Udio

🥁 В основе новой модели лежат предыдущие исследования команды Sony CSL Paris. В более ранней работе исследователи научили ИИ добавлять к композиции «реалистичные и эффективные» (видимо, качающие) басы. Diff-A-Riff этим не ограничивается и может генерировать дорожки для разных инструментов, но только один за раз

🔩 В Diff-A-Riff используется два мощных метода глубокого обучения: латентные диффузионные модели и консистентные автоэнкодеры. Автоэнкодеры сжимают входное аудио, сохраняя высокое качество с помощью генеративного алгоритма. Эти данные отправляются в латентную диффузионную модель, которая создает новое аудио с учетом особенностей трека

🔊 Ученые говорят, что у Diff-A-Riff есть несколько важных плюсов:
- Ей удобно управлять — можно, например, задавать параметры с помощью аудио и через текстовые промпты и делать плавные переходы между лупами
- На выходе получается качественный псевдо-стерео звук с частотой 48 кГц
- Модель выдает результаты быстро — ей нужно 3 секунды на минуту аудио

👩‍🎤 Sony позиционирует Diff-A-Riff как профессиональный инструмент для продюсеров, звукорежиссеров и композиторов. В будущем ученые собираются сотрудничать с музыкантами, чтобы понять, чего им не хватает. А пока можно почитать подробности про модель на Github
🔥71🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📹 Dream Machine научилась создавать видео по ключевым кадрам

✍️ Luma AI добавила в свой генератор видеороликов новый тип подсказок — Keyframes. Теперь можно подгрузить в Dream Machine изображения, которые станут первым и последним кадрами видео, и описать происходящее между ними текстом

🎞 В поле для текстового промпта имеет смысл указать, как именно должны двигаться объекты и меняться цвета. Оставить его пустым тоже можно. ИИ в любом случае сделает автоматическую интерполяцию (то есть придумает плавный переход между фреймами)

На видео есть пример, как мем с Вилли Вонкой плавно переходит в мем Roll Safe

🎞 Судя по примерам, в генераторе по-прежнему есть ограничение на длительность видео в 5 секунд. Но Luma AI пишет, что при желании можно продлить свой ролик после первоначальной генерации и выйти за пределы последнего кадра

👍 После обновления результаты модели действительно стали лучше. Раньше Dream Machine следовала текстовым промптам очень примерно, а вот при использовании изображения в качестве референса выдавала более качественную картинку. Так что Keyframes — логичный апдейт
4🔥2🤔1
🫡 Runway открыла доступ к новой версии своего генератора видео

💰 С анонса прошла всего пара недель. Месячная подписка стоит минимум $15, по этому тарифу доступно 62 секунды видео от Gen-3 Alpha. Модель позволяет сгенерировать ролики длиной не больше 10 секунд

⚔️ Тестерам доступ дали на сутки раньше, поэтому они уже успели поэкспериментировать. Один из них даже сравнил результаты работы Gen-3 с Sora от OpenA на одинаковых промптах. Выбрать однозначного победителя не получилось: где-то лучше справилась модель от Runway, где-то преимущество осталось за Sora. Например, на одном из видео у Gen-3 пыль опережает проезжающий джип
В целом, генерации у OpenAI получались как будто более реалистичными. Зато Gen-3 лучше изображала людей

🙁 Уже после официального релиза Gen-3 Alpha многие пользователи написали, что генератор еще сырой. Да, ролики на сайте выглядели очень прилично. Но, как это часто бывает, в паблике показали только лучшие результаты. На деле нейросеть плохо справляется со сложными промптами, игнорирует части слов и выдает одно нормальное видео на 4 генерации

Зато, как справедливо отвечают пользователи, Gen-3 хотя бы можно попробовать. Доступ к той же Sora с февраля так и не открыли. Гипотезы две: что в OpenAI боятся дипфейков перед надвигающимися выборами, и что модель еще не доработана и съедает слишком много ресурсов
🔥3👍1
🦖🦤🦣 Meta* представила очень быструю ИИ-систему для генерации 3D-активов

Meta 3D Gen создает 3D-модели из текстовых описаний меньше чем за минуту. В компании говорят, что это в 3-10 раз быстрее, чем позволяют другие решения на рынке. При этом Meta обещает высокое качество даже для сложных промптов.

🌐 ИИ-система объединяет два главных компонента:
- Meta 3D AssetGen (text-to-3D) для генерации 3D-сеток, они же меши. Это набор из вершин, ребер и граней, которые составляют один 3D-объект;
- Meta 3D TextureGen (text-to-texture) для генерации текстур.

📝 Схема работы такая: сначала пользователь за 30 секунд создает первую версию 3D-модели с помощью 3D AssetGen. Потом можно либо доработать существующую текстуру модели, либо вообще заменить ее на новую. В обоих случаях это делается с помощью текстовых промптов (здесь как раз вступает в игру Meta 3D TextureGen). Это займет еще примерно 20 секунд.

💡 Одна из главных фич 3D Gen — поддержка PBR (Physically based rendering, или физически корректный рендеринг). Этот метод позволяет более достоверно отображать объекты, моделируя поток света в реальном мире. Сгенерированные другими инструментами модели часто выглядят неестественно, потому что нейросети не могут правдоподобно отразить свойства материалов и то, как они меняются при разном освещении. Meta 3D Gen может это исправить.

🎮 Система пока находится на стадии разработки, потестировать ее нельзя. Но она может пригодиться для гейминга, кино, архитектуры и любых других сфер, где нужна трехмерная графика.

*организация признана экстремистской и запрещена в России
👍2🤔1