D. Lab

🎦 DeepMind разработал нейросеть, которая пишет саундтреки к видео

V2A (Video-to-Audio) умеет генерировать звуковую дорожку на основе видео, которая сразу синхронизируется с происходящим в клипе.

💣 Генерируемое аудио может быть разнообразным: аудиоэффекты, музыка, диалоги.

⌨️ Диффузионная модель опционально поддерживает промпты. V2A можно обозначить, каким именно должен быть саундтрек или, наоборот — чего при озвучании надо избегать (то есть можно использовать позитивные и негативные текстовые подсказки).

💬 Для более качественных генераций V2A тренировали не только на видео- и аудиоинформации, но и на сгенерированных ИИ текстовых описаниях происходящего в клипах.

🔨 Звучит круто, но потестить V2A пока никому не дадут — модель еще слишком сырая и требует серьезных доработок.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3😱2👍1

435 views10:35

D. Lab

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

🦒 Крупнейший в США продавец игрушек выпустил рекламу, сгенерированную Sora

Ритейлер Toys R Us (1,5 тыс. магазинов более чем в 30 странах) выпустил рекламный ролик, почти полностью созданный с помощью нейросети Sora.

🤝 Ролик был создан вместе с креативным агентством Native Foreign и представлен на недавно прошедших Каннских львах — ключевым фестивалем для производителей рекламы.

💡 В минутном клипе юному Чарльзу Лазарусу — будущему основателю Toys R Us — приходит в голову идея открыть магазин игрушек, не похожий на другие. В этом ему помогает игрушечный жираф.

🔩 Помимо Sora, при создании ролика авторы использовали оригинальный саундтрек (в смысле, созданный людьми) и дополнительные спецэффекты. В Native Foreign не вдаются в подробности, но, как и другие пользователи Sora, говорят, что для создания ролика потребовалась не одна итерация, прежде чем он стал выглядеть как надо.

🤷‍♀️ Запускать рекламную кампанию с использованием клипа Toys R Us пока не планируют.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

448 views14:35

D. Lab

1:25

This media is not supported in your browser

VIEW IN TELEGRAM

🆕

Kling научилась удлинять видео и создавать клипы по картинке

Один из наиболее перспективных конкурентов Sora получил первый апдейт — теперь генерации можно создавать по картинке-референсу, а также растягивать хронометраж клипа до трех минут.

Чтобы попробовать нейросеть, не будучи жителем Китая, все еще нужно сильно постараться.

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡1

435 viewsedited 11:05

D. Lab

Sony прощается с VR, OpenAI купил две компании за неделю, Meta* тестирует пользовательских чат-ботов — и другие важные новости за неделю

✅ OpenAI зарабатывает на продаже своих сервисов больше, чем когда-то взявший стартап под крыло Microsoft. Это интересно, так как до середины прошлого года у OpenAI даже не было полноценного отдела продаж. Уже в марте этого года стартап вышел на прогноз по выручке в $1 млрд, а Microsoft на это понадобилось еще несколько месяцев (имеются в виду именно продажи сервисов OpenAI);

✅ Телеканал NBC использует в эфирах с грядущей Олимпиады в Париже клонированный с помощью ИИ голос ведущего Эла Майклса. Майклс — легендарная для американской аудитории личность и даже входит в Зал славы спортивных ведущих США. 80-летний Майклс жив-здоров, но в 2021 году ушел на пенсию. Поэтому NBC обратились к нему с предложением натренировать ИИ на его прошлых трансляциях. Клонированный ведущий будет зачитывать в эфире главные события за прошедший день Олимпиады;

✅ Meta* начала тестировать пользовательских чат-ботов в Instagram**. Идея этих ботов в том, чтобы заменить контент мейкеров для выполнения некоторых рутинных задач (например, отвечать на личные сообщения и комментарии поклонников), при этом сохранив стиль общения автора. Тестирование пока ограничено американскими пользователями;

✅ YouTube ведет переговоры с крупными рекорд-лейблами, чтобы получить разрешение использовать записи их музыкантов для обучения ИИ. Получать многомиллионные иски видеохостингу, очевидно, не хочется, а вот создать конкурента Suno и Udio — очень даже;

✅ На этой неделе OpenAI впервые купила сторонние компании. Сначала стартап сообщил о покупке аналитической платформы Rockset, а затем — о приобретении Multi, сервиса для удаленной совместной разработки программного обеспечения;

✅ Стартап Etched анонсировал процессоры Sohu, которые в 20 раз быстрее H100 от Nvidia при работе с ИИ-моделями. Есть одно но — Sohu заточен только под работу с моделями, созданными на архитектуре трансформер, и никакими другими. С другой стороны, именно на этой архитектуре построены все основные нейросети — от GPT до Stable Diffusion. Разработчики пока не говорят, когда Sohu поступит в продажу;

✅ Создатели популярной нейросети для синтеза и клонирования голоса ElevenLabs выпустили приложение для iOS. По сравнению с веб-версией у ElevenLabs Reader ограниченный, но заточенный под смартфон функционал — она зачитывает любой текст (файлы, странички, заметки) качественным синтетическим голосом. На старте будет только поддержка английского, но потом обещают добавить еще почти три десятка языков. В Европе Reader станет доступен с 11 июля, версия для Android будет позже;

✅ Т-Банк (бывший Тинькофф) запустил ИИ-помощника специально для детей. Джуниор-ассистент будет обучать ребенка финансовой грамотности, но может побеседовать и на отвлеченные темы, учитывая при этом «эмоциональный настрой» ребенка. Джуниор-ассистент вошел в ранее запущенную банком Вселенную ассистентов;

✅ Sony, судя по всему, потихоньку сворачивает свой VR-проект. Как утверждают инсайдеры, в разработке для хедсета PSVR 2 находятся всего две игры (которые не факт, что выйдут), денег на другие проекты в бюджете Sony не предусмотрено. До этого компания распустила несколько студий, которые разрабатывали VR-игры. PSVR 2 поступил в продажу в феврале 2023 года.

*Организация, запрещенная на территории РФ

**Instagram входит в Meta — организацию, запрещенную на территории РФ

🤔3👍1

415 views09:00

D. Lab

3:33

This media is not supported in your browser

VIEW IN TELEGRAM

🎶 Sony разработала «профессиональную» нейросеть для музыкантов

Главная фишка Diff-A-Riff — в том, что она умеет генерировать инструментал к уже готовой композиции с учетом стиля и тональности трека. Это отличает ее от любительских генераторов вроде Suno и Udio

🥁 В основе новой модели лежат предыдущие исследования команды Sony CSL Paris. В более ранней работе исследователи научили ИИ добавлять к композиции «реалистичные и эффективные» (видимо, качающие) басы. Diff-A-Riff этим не ограничивается и может генерировать дорожки для разных инструментов, но только один за раз

🔩 В Diff-A-Riff используется два мощных метода глубокого обучения: латентные диффузионные модели и консистентные автоэнкодеры. Автоэнкодеры сжимают входное аудио, сохраняя высокое качество с помощью генеративного алгоритма. Эти данные отправляются в латентную диффузионную модель, которая создает новое аудио с учетом особенностей трека

🔊 Ученые говорят, что у Diff-A-Riff есть несколько важных плюсов:
- Ей удобно управлять — можно, например, задавать параметры с помощью аудио и через текстовые промпты и делать плавные переходы между лупами
- На выходе получается качественный псевдо-стерео звук с частотой 48 кГц
- Модель выдает результаты быстро — ей нужно 3 секунды на минуту аудио

👩‍🎤 Sony позиционирует Diff-A-Riff как профессиональный инструмент для продюсеров, звукорежиссеров и композиторов. В будущем ученые собираются сотрудничать с музыкантами, чтобы понять, чего им не хватает. А пока можно почитать подробности про модель на Github

🔥7❤1🤔1

657 views13:03

D. Lab

1:04

This media is not supported in your browser

VIEW IN TELEGRAM

📹 Dream Machine научилась создавать видео по ключевым кадрам

✍️ Luma AI добавила в свой генератор видеороликов новый тип подсказок — Keyframes. Теперь можно подгрузить в Dream Machine изображения, которые станут первым и последним кадрами видео, и описать происходящее между ними текстом

🎞 В поле для текстового промпта имеет смысл указать, как именно должны двигаться объекты и меняться цвета. Оставить его пустым тоже можно. ИИ в любом случае сделает автоматическую интерполяцию (то есть придумает плавный переход между фреймами)

На видео есть пример, как мем с Вилли Вонкой плавно переходит в мем Roll Safe

🎞 Судя по примерам, в генераторе по-прежнему есть ограничение на длительность видео в 5 секунд. Но Luma AI пишет, что при желании можно продлить свой ролик после первоначальной генерации и выйти за пределы последнего кадра

👍 После обновления результаты модели действительно стали лучше. Раньше Dream Machine следовала текстовым промптам очень примерно, а вот при использовании изображения в качестве референса выдавала более качественную картинку. Так что Keyframes — логичный апдейт

❤4🔥2🤔1

442 viewsedited 08:42

D. Lab