D. Lab
1.11K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
🎦 DeepMind разработал нейросеть, которая пишет саундтреки к видео

V2A (Video-to-Audio) умеет генерировать звуковую дорожку на основе видео, которая сразу синхронизируется с происходящим в клипе.

💣 Генерируемое аудио может быть разнообразным: аудиоэффекты, музыка, диалоги.

⌨️ Диффузионная модель опционально поддерживает промпты. V2A можно обозначить, каким именно должен быть саундтрек или, наоборот — чего при озвучании надо избегать (то есть можно использовать позитивные и негативные текстовые подсказки).

💬 Для более качественных генераций V2A тренировали не только на видео- и аудиоинформации, но и на сгенерированных ИИ текстовых описаниях происходящего в клипах.

🔨 Звучит круто, но потестить V2A пока никому не дадут — модель еще слишком сырая и требует серьезных доработок.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3😱2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦒 Крупнейший в США продавец игрушек выпустил рекламу, сгенерированную Sora

Ритейлер Toys R Us (1,5 тыс. магазинов более чем в 30 странах) выпустил рекламный ролик, почти полностью созданный с помощью нейросети Sora.

🤝 Ролик был создан вместе с креативным агентством Native Foreign и представлен на недавно прошедших Каннских львах — ключевым фестивалем для производителей рекламы.

💡 В минутном клипе юному Чарльзу Лазарусу — будущему основателю Toys R Us — приходит в голову идея открыть магазин игрушек, не похожий на другие. В этом ему помогает игрушечный жираф.

🔩 Помимо Sora, при создании ролика авторы использовали оригинальный саундтрек (в смысле, созданный людьми) и дополнительные спецэффекты. В Native Foreign не вдаются в подробности, но, как и другие пользователи Sora, говорят, что для создания ролика потребовалась не одна итерация, прежде чем он стал выглядеть как надо.

🤷‍♀️ Запускать рекламную кампанию с использованием клипа Toys R Us пока не планируют.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 Kling научилась удлинять видео и создавать клипы по картинке

Один из наиболее перспективных конкурентов Sora получил первый апдейт — теперь генерации можно создавать по картинке-референсу, а также растягивать хронометраж клипа до трех минут.

Чтобы попробовать нейросеть, не будучи жителем Китая, все еще нужно сильно постараться.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Sony прощается с VR, OpenAI купил две компании за неделю, Meta* тестирует пользовательских чат-ботов — и другие важные новости за неделю

OpenAI зарабатывает на продаже своих сервисов больше, чем когда-то взявший стартап под крыло Microsoft. Это интересно, так как до середины прошлого года у OpenAI даже не было полноценного отдела продаж. Уже в марте этого года стартап вышел на прогноз по выручке в $1 млрд, а Microsoft на это понадобилось еще несколько месяцев (имеются в виду именно продажи сервисов OpenAI);

Телеканал NBC использует в эфирах с грядущей Олимпиады в Париже клонированный с помощью ИИ голос ведущего Эла Майклса. Майклс — легендарная для американской аудитории личность и даже входит в Зал славы спортивных ведущих США. 80-летний Майклс жив-здоров, но в 2021 году ушел на пенсию. Поэтому NBC обратились к нему с предложением натренировать ИИ на его прошлых трансляциях. Клонированный ведущий будет зачитывать в эфире главные события за прошедший день Олимпиады;

Meta* начала тестировать пользовательских чат-ботов в Instagram**. Идея этих ботов в том, чтобы заменить контент мейкеров для выполнения некоторых рутинных задач (например, отвечать на личные сообщения и комментарии поклонников), при этом сохранив стиль общения автора. Тестирование пока ограничено американскими пользователями;

YouTube ведет переговоры с крупными рекорд-лейблами, чтобы получить разрешение использовать записи их музыкантов для обучения ИИ. Получать многомиллионные иски видеохостингу, очевидно, не хочется, а вот создать конкурента Suno и Udio — очень даже;

На этой неделе OpenAI впервые купила сторонние компании. Сначала стартап сообщил о покупке аналитической платформы Rockset, а затем — о приобретении Multi, сервиса для удаленной совместной разработки программного обеспечения;

Стартап Etched анонсировал процессоры Sohu, которые в 20 раз быстрее H100 от Nvidia при работе с ИИ-моделями. Есть одно но — Sohu заточен только под работу с моделями, созданными на архитектуре трансформер, и никакими другими. С другой стороны, именно на этой архитектуре построены все основные нейросети — от GPT до Stable Diffusion. Разработчики пока не говорят, когда Sohu поступит в продажу;

Создатели популярной нейросети для синтеза и клонирования голоса ElevenLabs выпустили приложение для iOS. По сравнению с веб-версией у ElevenLabs Reader ограниченный, но заточенный под смартфон функционал — она зачитывает любой текст (файлы, странички, заметки) качественным синтетическим голосом. На старте будет только поддержка английского, но потом обещают добавить еще почти три десятка языков. В Европе Reader станет доступен с 11 июля, версия для Android будет позже;

Т-Банк (бывший Тинькофф) запустил ИИ-помощника специально для детей. Джуниор-ассистент будет обучать ребенка финансовой грамотности, но может побеседовать и на отвлеченные темы, учитывая при этом «эмоциональный настрой» ребенка. Джуниор-ассистент вошел в ранее запущенную банком Вселенную ассистентов;

Sony, судя по всему, потихоньку сворачивает свой VR-проект. Как утверждают инсайдеры, в разработке для хедсета PSVR 2 находятся всего две игры (которые не факт, что выйдут), денег на другие проекты в бюджете Sony не предусмотрено. До этого компания распустила несколько студий, которые разрабатывали VR-игры. PSVR 2 поступил в продажу в феврале 2023 года.

*Организация, запрещенная на территории РФ

**Instagram входит в Meta — организацию, запрещенную на территории РФ
🤔3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎶 Sony разработала «профессиональную» нейросеть для музыкантов

Главная фишка Diff-A-Riff — в том, что она умеет генерировать инструментал к уже готовой композиции с учетом стиля и тональности трека. Это отличает ее от любительских генераторов вроде Suno и Udio

🥁 В основе новой модели лежат предыдущие исследования команды Sony CSL Paris. В более ранней работе исследователи научили ИИ добавлять к композиции «реалистичные и эффективные» (видимо, качающие) басы. Diff-A-Riff этим не ограничивается и может генерировать дорожки для разных инструментов, но только один за раз

🔩 В Diff-A-Riff используется два мощных метода глубокого обучения: латентные диффузионные модели и консистентные автоэнкодеры. Автоэнкодеры сжимают входное аудио, сохраняя высокое качество с помощью генеративного алгоритма. Эти данные отправляются в латентную диффузионную модель, которая создает новое аудио с учетом особенностей трека

🔊 Ученые говорят, что у Diff-A-Riff есть несколько важных плюсов:
- Ей удобно управлять — можно, например, задавать параметры с помощью аудио и через текстовые промпты и делать плавные переходы между лупами
- На выходе получается качественный псевдо-стерео звук с частотой 48 кГц
- Модель выдает результаты быстро — ей нужно 3 секунды на минуту аудио

👩‍🎤 Sony позиционирует Diff-A-Riff как профессиональный инструмент для продюсеров, звукорежиссеров и композиторов. В будущем ученые собираются сотрудничать с музыкантами, чтобы понять, чего им не хватает. А пока можно почитать подробности про модель на Github
🔥71🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📹 Dream Machine научилась создавать видео по ключевым кадрам

✍️ Luma AI добавила в свой генератор видеороликов новый тип подсказок — Keyframes. Теперь можно подгрузить в Dream Machine изображения, которые станут первым и последним кадрами видео, и описать происходящее между ними текстом

🎞 В поле для текстового промпта имеет смысл указать, как именно должны двигаться объекты и меняться цвета. Оставить его пустым тоже можно. ИИ в любом случае сделает автоматическую интерполяцию (то есть придумает плавный переход между фреймами)

На видео есть пример, как мем с Вилли Вонкой плавно переходит в мем Roll Safe

🎞 Судя по примерам, в генераторе по-прежнему есть ограничение на длительность видео в 5 секунд. Но Luma AI пишет, что при желании можно продлить свой ролик после первоначальной генерации и выйти за пределы последнего кадра

👍 После обновления результаты модели действительно стали лучше. Раньше Dream Machine следовала текстовым промптам очень примерно, а вот при использовании изображения в качестве референса выдавала более качественную картинку. Так что Keyframes — логичный апдейт
4🔥2🤔1
🫡 Runway открыла доступ к новой версии своего генератора видео

💰 С анонса прошла всего пара недель. Месячная подписка стоит минимум $15, по этому тарифу доступно 62 секунды видео от Gen-3 Alpha. Модель позволяет сгенерировать ролики длиной не больше 10 секунд

⚔️ Тестерам доступ дали на сутки раньше, поэтому они уже успели поэкспериментировать. Один из них даже сравнил результаты работы Gen-3 с Sora от OpenA на одинаковых промптах. Выбрать однозначного победителя не получилось: где-то лучше справилась модель от Runway, где-то преимущество осталось за Sora. Например, на одном из видео у Gen-3 пыль опережает проезжающий джип
В целом, генерации у OpenAI получались как будто более реалистичными. Зато Gen-3 лучше изображала людей

🙁 Уже после официального релиза Gen-3 Alpha многие пользователи написали, что генератор еще сырой. Да, ролики на сайте выглядели очень прилично. Но, как это часто бывает, в паблике показали только лучшие результаты. На деле нейросеть плохо справляется со сложными промптами, игнорирует части слов и выдает одно нормальное видео на 4 генерации

Зато, как справедливо отвечают пользователи, Gen-3 хотя бы можно попробовать. Доступ к той же Sora с февраля так и не открыли. Гипотезы две: что в OpenAI боятся дипфейков перед надвигающимися выборами, и что модель еще не доработана и съедает слишком много ресурсов
🔥3👍1
🦖🦤🦣 Meta* представила очень быструю ИИ-систему для генерации 3D-активов

Meta 3D Gen создает 3D-модели из текстовых описаний меньше чем за минуту. В компании говорят, что это в 3-10 раз быстрее, чем позволяют другие решения на рынке. При этом Meta обещает высокое качество даже для сложных промптов.

🌐 ИИ-система объединяет два главных компонента:
- Meta 3D AssetGen (text-to-3D) для генерации 3D-сеток, они же меши. Это набор из вершин, ребер и граней, которые составляют один 3D-объект;
- Meta 3D TextureGen (text-to-texture) для генерации текстур.

📝 Схема работы такая: сначала пользователь за 30 секунд создает первую версию 3D-модели с помощью 3D AssetGen. Потом можно либо доработать существующую текстуру модели, либо вообще заменить ее на новую. В обоих случаях это делается с помощью текстовых промптов (здесь как раз вступает в игру Meta 3D TextureGen). Это займет еще примерно 20 секунд.

💡 Одна из главных фич 3D Gen — поддержка PBR (Physically based rendering, или физически корректный рендеринг). Этот метод позволяет более достоверно отображать объекты, моделируя поток света в реальном мире. Сгенерированные другими инструментами модели часто выглядят неестественно, потому что нейросети не могут правдоподобно отразить свойства материалов и то, как они меняются при разном освещении. Meta 3D Gen может это исправить.

🎮 Система пока находится на стадии разработки, потестировать ее нельзя. Но она может пригодиться для гейминга, кино, архитектуры и любых других сфер, где нужна трехмерная графика.

*организация признана экстремистской и запрещена в России
👍2🤔1
🔮 Билл Гейтс считает, что сверхчеловеческий ИИ ближе, чем мы думаем (и он сильно изменит мир)

Основатель Microsoft стал гостем подкаста The Next Big Idea, где обсуждали ИИ и его влияние на общество. Несколько важных тезисов из интервью:

🤖 Скоро каждого человека будет сопровождать персональный ИИ-ассистент. Он сможет отслеживать и анализировать всю нужную информацию и понимать контекст задач. Раньше люди не могли доверить компьютеру даже организовать свою почту, потому что устройства не способны были понять намерения пользователя. Благодаря ИИ всё изменилось.

У людей также появятся ИИ-друзья, ИИ-психотерапевты и, возможно, даже виртуальные романтические партнеры. Они будут работать в разных режимах в зависимости от того, какая информация им доступна. Но именно персональный ассистент будет знать о нас практически все.

💭 ИИ дойдет до стадии метапознания через две итерации (связанные с апгрейдами в сфере видеоданных и синтетических данных). Нейросети смогут самостоятельно планировать свои действия, расставлять приоритеты, выбирать инструменты и методы для достижения целей и даже проверять результаты. По сути, Билл Гейтс говорит, что у ИИ появится критическое мышление.

👩‍💼 ИИ сильно изменит рынок труда. С учетом предыдущего пункта становится понятно, что нейросети смогут выполнять многие задачи лучше людей. Из этого следует две идеи:
▪️ Государственным организацием и частным компаниям нужно уже сейчас учить работников тем навыкам, которые будут актуальны для новой ИИ-экономики. В первую очередь это касается «белых воротничков» (хотя до «синих» дело тоже дойдет). При этом как раз «белым воротничкам», которые занимаются интеллектуальной деятельностью, перестроиться будет проще;
▪️ В целом, людям придется искать новые цели в жизни. Погоня за достатком и безостановочная работа уйдут в прошлое. Люди смогут сфокусироваться на более креативных задачах и важных социальных проблемах. Каких именно — тоже может подсказать ИИ с учетом склонностей каждого человека.

💉ИИ повлияет на здравоохранение и образование. Гейтс говорит, что за последние 20 лет общество смогло сократить детскую смертность вдвое за счет распространения и удешевления вакций. Но с ИИ можно пойти дальше и решать проблемы на начальном этапе. Он поможет понять, почему дети недоедают, или почему так трудно создать вакцину от ВИЧ.

Нейросети помогут совершать научные открытия (и создавать новые лекарства как следствие) и проводить диагностику пациентов. Плюс, с их помощью можно будет проводить персональные медицинские консультации на разных языках.

По аналогии люди из менее обеспеченных регионов смогут получить доступ к персональным тьюторам прямо в мобильных телефонах. Это особенно актуально с учетом огромной нехватки специалистов и ресурсов в развивающихся странах
🔥3🤔2
🛤 GPT-5 сделает рывок вперед по сравнению с GPT-4 — но это все еще малая часть ИИ-потенциала, считает Сэм Альтман

В интервью на Фестивале идей в Аспене CEO OpenAI дал несколько спойлеров про GPT-5. Он сказал, что GPT-4 толком не может рассуждать, иногда просто «сходит с рельсов» и совершает глупые ошибки, которые не сделал бы и 6-летний ребенок. А вот GPT-5 должна это исправить: она будет лучше справляться с рассуждениями и меньше ошибаться.

⚙️ Правда, долгожданная модель пока находится на ранней стадии разработки. Скорее всего, это связано со сложностью алгоритмов и потребностью в огромных объемах данных. Ближайшие месяцы определят, получится ли у GPT-5 превзойти ожидания пользователей и самого Альтмана.

📱 Сэм Альтман сравнил нынешнее состояние ИИ-рынка с ранними днями iPhone. Первые айфоны были полезны для людей, несмотря на кучу багов. Такая же история и с LLM: они многое умеют, но все еще находятся на начальной стадии и демонстрируют малую часть своего потенциала.

🔍 Еще Альтман считает: сегодняшние модели ИИ относительно маленькие по сравнению с тем, какими они могут стать в будущем. В прошлом году он предположил, что эра гигантских языковых моделей близится к концу. Но мнение Альтмана успело поменяться. Теперь он считает, что модели будут расти благодаря инвестициям в вычислительную мощность и энергию.

📝 На мероприятии Альтман не упустил возможности похвастаться этичным подходом OpenAI, который предполагает лицензирование контента от СМИ (в январе компания предложила до $5 млн в год за лицензии от CNN, Time и Fox на использование их материалов для обучения ChatGPT). Сэм противопоставил OpenAI Google, где говорят, что ИИ-трафик и так приносит пользу издателям — это сомнительное утверждение доверия у рынка не вызывает.

🛍 CEO OpenAI говорит, что ИИ «не суперсильно, но в значительной степени» изменит то, как люди используют интернет. На этом фоне будут появляться новые бизнес-модели, в том числе в сфере коммерции.
🔥3🤔3
👸 «Королева интернета»‎ выпустила первый отчет за четыре года, и он про ИИ

Мэри Микер — американский венчурный инвестор и одна из самых влиятельных аналитиков в мире. Она работала в Morgan Stanley и Kleiner Perkins, и в свое время первой предсказала бум доткомов. А еще она известна обзорами интернет-трендов, которые пользовались большой популярностью и расходились на цитаты в Кремниевой долине — за что Микер и зовут «королевой интернета». Только последний такой отчет был в 2019 году, плюс еще один в 2020-м.

📚 В этот раз Микер выпустила довольно скромный по объемам отчет (всего 16 страниц — в 2019 году он занимал больше 300!) про ИИ с фокусом на образование в США. Такой интерес к теме связан, видимо, с тем, что именно «американские высшие учебные заведения раньше были бастионами технологического прогресса».

🤖 Микер пишет, что на фоне ИИ-бума мы дошли до стадии, когда сферу образования ждут «быстрые и яростные изменения». ИИ может стать универсальным инструментом в индустрии.

🎓 Интернет и так сильно изменил процесс обучения — благодаря поисковикам, соцсетям, онлайн-курсам, YouTube и другим платформам знания стали доступны как никогда. Но ИИ поменяет образование в больших масштабах. Несколько примеров:
▪️ Повсеместное распространение приложений для учебы и ИИ открывает студентам доступ к профессиональным знаниям в области юриспруденции, программирования и многих других сфер;
▪️ ИИ-репетиторы теперь доступны 24/7 всем, у кого есть доступ в интернет. Они могут в реальном времени давать студентам персонализированный фидбек;
▪️ Нейросети могут адаптировать подходы к обучению с учетом особенностей каждого человека. Например, для людей с дислексией ИИ может автоматически переводить текст в речь;
▪️ Информация теперь все время под рукой. Можно не запоминать ее, а сразу пытаться применить знания на практике;
▪️ В новой парадигме преуспеют самые мотивированные студенты, которые могут учиться самостоятельно;
▪️ ИИ-модели могут давать как верные ответы, так и совсем неправильные. Учителям нужно будет оптимизировать процесс обучения с учетом этого факта;
▪️ ИИ поможет преподавателям готовить персонализированные учебные планы и материалы, проверять домашние задания, отслеживать посещаемость;
▪️ Учителя станут коучами, тьюторами и наставниками, которые не просто доносят информацию, а создают более располагающую атмосферу в классе, в том числе виртуальном.

💸 Молодые люди уже начинают задумываться, а стоит ли высшее образование их вложений (не только денег, но и времени). Поэтому университеты будущего должны будут воспринимать обучение как сервис, а студентов — как своих клиентов. Самым важным для них будет найти дифференциаторы (ключевые отличия от конкурентов), чтобы гарантировать учащимся максимальный возврат инвестиций.

🤝 Образовательным учреждениям сегодня нужно сотрудничать с лидерами в области технологий, а не сталкиваться с ними лбами. ИИ может стать для вузов или попутным ветром, или встречным. Наличие технических ресурсов, таких как доступ к GPU, вероятно, станет ключом к лидерству.

🖌 ИИ будет топливом для студенческого творчества и инноваций. Он может сократить непосредственное участие человека в некоторых дисциплинах и при этом освободить его интеллект и изобретательность — а это основная сила, которая стоит за появлением новых идей.
🔥5🤔3