D. Lab
1.1K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
Media is too big
VIEW IN TELEGRAM
🎞 🎞 Первый официальный музыкальный клип, созданный Sora

Инди-музыкант Эрнест Грин, выступающий под псевдонимом Washed Out, выпустил клип на новую песню The Hardest Part.

🫡 Видео сгенерировано нейросетью Sora, руководил процессом режиссер Пол Трилло. Вероятно, это первый случай использования этой нейросети в музыкальной индустрии.

Мы недавно писали, что профессионалы много говорят об ограничениях при работе с Sora, которые не дают ей стать настоящим инструментом для творчества.

💬 Но Трилло и Грин готовы с ними поспорить. Они рассказывают, что Sora позволила им сэкономить на бюджете, при этом реализовав идеи, которые не удалось бы использовать при создании «настоящего» клипа. OpenAI не брал деньги за использование модели.

✂️ Авторы не видят проблемы и в том, что клип пришлось монтировать из 700 генераций нейросети (в клипе в итоге использовали только 55 генераций). Трилло также решил не исправлять очевидные глюки в некоторых генерациях.

📆 На создание клипа ушло 6 недель.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👍2🔥1
OpenAI тайно выпустил новую LLM, в России пройдет конкурс нейрокино, выручка Samsung выросла на 930% — и другие важные новости за неделю

OpenAI тайно опубликовал новую LLM gpt2-chatbot на LMSYS Chatbot Arena (площадка для сравнения производительности языковых моделей). Несмотря на название, модель оказалась мощнее GPT-4. Это породило массу слухов о том, что gpt2-chatbot на самом деле GPT-4,5 или даже какая-то ранняя версия GPT-5. Сами OpenAI релиз не комментировали, а через несколько дней LLM стала недоступна;

TikTok смог договориться с Universal Music об использовании музыки лейбла в соцсети. В феврале компании сильно поругались, Universal фактически обвинял TikTok в шантаже и навязывании своих условий в использовании и монетизации музыки. Теперь конфликт улажен, TikTok пошел на уступки и даже согласился «защищать» артистов Universal от генеративного ИИ. Но на фоне вероятного запрета на работу TikTok в США новое соглашение может оказаться довольно бессмысленным;

Microsoft решил инвестировать миллиард долларов в OpenAI, испугавшись успехов в разработке ИИ, которых достиг стартап, а также конкуренты из Google. Это стало известно из переписки топ-менеджеров Microsoft того времени, которую опубликовали в рамках расследования Минюста США в отношении Google. Расследование связано с возможными антимонопольными действиями компании. Впоследствии Microsoft инвестирует в OpenAI более $10 млрд;

Операционная выручка Samsung подскочила сразу на 930% за I квартал этого года — до 36,3 трлн корейских вон (около $26 млрд). Причина, конечно же, в буме ИИ и вызванным им ростом спроса на компьютерную память, серверы и SSD-накопители. Samsung ожидает, что во второй половине года показатели продолжат расти, и наращивает производственные мощности;

В России пройдет конкурс генеративных фильмов. Участники должны будут за 48 часов сгенерировать сюжетное видео на заданную тему (можно и не на тему, но тогда останешься без дополнительных баллов). Зарегистрироваться на конкурс можно через сайт. Творческое задание опубликуют 11 мая, победителей назовут 16 мая;

Нейросети будут писать объявления за пользователей Авито. Сервис обучил LLM (какую именно, не уточняется) на 400 тыс. объявлений пользователей. Пока опция доступна только в мобильном приложении и только для одной категории товаров — Обувь, одежда, аксессуары. От пользователя требуется написать заголовок объявления, прикрепить фотографии товара и уточнить несколько деталей о нем;

Глава OpenAI Сэм Альтман вошел в Совет безопасности ИИ. Совет будет консультировать Министерство внутренней безопасности США по вопросам интеграции ИИ в критически важную инфраструктуру Штатов. Кроме Альтмана в совет вошли главы Nvidia, Microsoft, Alphabet и другие.
👍3🤔2🔥1
🫡 StoryDiffusion — плагин для создания консистентных персонажей с помощью ИИ

StoryDiffusion — это плагин для диффузионных Text-to-Image нейросетей от ByteDance, который позволяет генерировать одинаковых персонажей на нескольких генерациях. Также можно использовать референсы.

🎞 Плагин работает и с видео, чтобы генерации не превратились в персонажей «Следующая остановка — Париж» и не меняли внешность в каждом кадре.

🔩 Разработчики рассказывают, что для повышения консистентности они использовали модуль, с помощью которого нейросеть определяет, каким деталям генерации нужно уделить особое внимание (так называемый Self-Attention)

Использование модуля также позволило снизить требовательность StoryDiffusion к ресурсам по сравнению с конкурентами.

💬 Авторы отдельно отмечают, что StoryDiffusion хорошо справляется с генерацией комиксов.

☝️ Для работы с плагином от пользователя потребуется минимум три промпта с описанием персонажа (лучше шесть), чтобы StoryDiffusion лучше справился с задачей.

Подробно почитать о плагине можно здесь, сгенерировать свой комикс предлагают здесь (у нас демо так и не загрузилось).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Media is too big
VIEW IN TELEGRAM
🗣 Потерявший голос певец смог записать первую за 10 лет песню, используя ИИ

Рэнди Трэвис лишился голоса в 2013 году в результате инсульта. Благодаря генеративному ИИ музыкант смог записать первый более чем за 10 лет трэк.

🔩 Продюсеры музыканта натренировали ИИ (какую именно не уточняется) на 42 записях вокала Трэвиса.

🎙 Они не стали использовать просто голосовой клон Трэвиса, а пригласили другого певца — Джеймса Дюпре, который спел песню Where That Came From.

🫡 Затем обученный ИИ трансформировал голос Дюпре в голос Трэвиса, сохранив особенности вокала второго. Продюсеры говорят, что около 75% результата работы ИИ можно было использовать сразу, остальное нужно было доработать.

📆 На создание трека ушло несколько месяцев.

💵 Where That Came From можно послушать, в том числе и на стриминг-сервисах. Видимо, это первый случай, когда у песни с клонированным голосом случился коммерческий релиз.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
😱 Авторы стоковых фотографий боятся генеративного ИИ

Фотографы опасаются, что их профессия может полностью исчезнуть из-за нейросетей.

📈 На пике в 1970-90-х фотографы могли получать до $2 тыс. за использование одного снимка. С появлением цифровых камер и после того, как стоковые агентства вышли в интернет, выплаты фотографам рухнули до 2 центов за снимок. Фотографам пришлось делать по несколько сотен фотографий в день, чтобы сохранить заработки.

📉 Сегодня даже успешные фотографы признают, что ситуация в индустрии не та, которой была даже три года назад, а тем более — 20-30 лет назад. Автор легендарной фотки Неверный бойфренд Антонио Гиллем говорит, что все еще может обеспечивать себя, но о 1,6 тыс. лицензий, которые он продавал еще пару лет назад, пришлось забыть.

🏫 Потенциально, фотографы могут зарабатывать на обучении нейросетей, которым вечно не хватает информации, на своих снимках. Но пока такие выплаты ничтожно малы. Например, фотограф Шеннон Фейган говорит, что в прошлом году получил от Adobe Stock единственную выплату за обучение ИИ на его фото — около 10-12% от того, что он обычно получает от Adobe за год.

🤖 Фотографов успокаивают стоковые агентства, с которыми они сотрудничают. Там утверждают, что ИИ никогда не заменит настоящие фото, а их клиентам нужны настоящие снимки, а не сгенерированные по промпту. При этом те же стоковые агентства работают над собственными нейросетями для генерации изображений. Свои модели уже есть у Shutterstock, у Adobe и у Getty.

🧍‍♀️ Стоковые агентства предлагают фотографам чутче реагировать на запросы рынка. Например, если всем нужны женщины в красном свитере, а у автора есть только фото с женщинами в синем свитере, то можно использовать ИИ, чтобы отредактировать изображение.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Гауссианы + Unreal Engine = ♥️

Команда разработчика Temporal Games смогла перенести объемное видео, созданное с помощью Gaussian Splatting, в среду Unreal Engine пятой версии.

🔩 Авторы использовали технологию рендеринга Animated Gaussian Splatting, которую также называют 4D Gaussian Splatting или 4DGS.

🔦 Использование видео вместе с UE5 позволяет в реальном времени редактировать 3D. В видео выше можно посмотреть, как разработчики меняют освещение в виртуальной сцене.

🎧 У 4DGS большой потенциал — в обозримом будущем нам станет доступен стриминг 3D-видео в качестве, сопоставимом с качеством просмотра видео онлайн сегодня.

😼 Весь вопрос в том, какие мощности для этого понадобятся. Один кадр, созданный с помощью 4DGS и содержащий 200 тыс. гауссиан, даже после сжатия весит больше 1,5 мб. Это значит, что часовая запись пристойного качества будет весить больше 300 Гб.

😐 Temporal Games сообщают, что нашли способы сжать анимацию еще больше, сохраняя плавность изображения. При этом качество изображения может адаптироваться в зависимости от пропускной способности сети. По итогу, как утверждается, разработчиком удалось оптимизировать требования к системе 4DGS до уровня статичных гауссиан (это значит: минимум 4 Гб видеопамяти для просмотра и около 12 Гб — для создания).

В обозримом будущем разработчики планируют открыть доступ к технологии для игровых разработчиков и веб-платформ.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤔1
ChatGPT теперь работает на 4o и косплеит подругу из фильма «Она»

4️⃣ GPT-4o (нет, не «чо» — «о» там от слова omni) — новая мультимодальная модель, которую обучали сразу на тексте, фото и видео. С ней можно общаться текстом, голосом и по аудиовидеосвязи: например, запустить трансляцию с камеры и попросить объяснить, что происходит в кадре.

Но самое интересное — ChatGPT теперь будет работать как голосовой ассистент. Он отвечает так же быстро, как обычный человек во время живого общения — так как над генерацией голоса работает та же LLM, что формирует ответ⚡️

👫 Модель подстраивает интонацию под тон и выражение лица собеседника, шутит над ним и смеется. Она может говорить с сарказмом или шепотом, имитировать голос робота и петь. GPT-4o переводит тексты на фото, а также беседу людей, говорящих на разных языках, в реальном времени.

💃 Отвечает ассистент женским голосом — поэтому все (включая Сэма Альтмана) тут же вспомнили ИИ-подругу из фильма «Она». Однако GPT-4o может исполнять любые роли: экскурсовода, преподавателя и т. п. Модель распознает фоновые шумы, понимает несколько собеседников, анализирует окружение пользователя и может встроиться в компанию. Например, заметив праздничный торт со свечами, GPT-4o поздравит именинника и организует офлайн-игру.

🤤 Доступ к GPT-4o будет бесплатным, но с лимитом запросов. У подписчиков Plus лимит будет в 5 раз больше. Бесплатными сделают и другие фичи из версии Plus: поиск информации в интернете, анализ данных и создание графиков, работу с изображениями и файлами, доступ к GPT Store.

👛 GPT-4o будет доступна по API и будет работать в 2 раза быстрее, чем GPT-4 Turbo. Обещают, что новая модель будет вдвое дешевле, чем текущее API.

🖥 Для macOS разработали десктопное приложение, до конца года появится приложение для Windows. В нем можно транслировать экран рабочего стола с программами и задавать по ним вопросы.

🗓 GPT-4o уже доступна большинству пользователей, другие фичи будут выкатывать в течение нескольких недель.

😜 Чем сегодня ответит Google?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Media is too big
VIEW IN TELEGRAM
Runway AI провела второй фестиваль ИИ-фильмов — за год заявок стало в 10 раз больше

📺 В Лос-Анджелесе прошел второй AI Film Festival — фестиваль фильмов, сгенерированных ИИ. Если в марте прошлого года на фестивале представили 300 работ, то сегодня — 3 тыс., призовой фонд вырос до $60 тыс.

🥇По требованиям фестиваля все фильмы должны длиться от одной до 10 минут, при их создании обязательно использовать ИИ — какой, вовсе не важно. Победителем стал клип на песню Get Me Out кинорежиссера Дэниела Антеби. При его создании он использовал три ИИ-инструмента, в том числе Gen-2 от Runway.

💀 По сюжету клипа, японец Ака пытается сбежать из своего мрачного дома в пригороде, но светящийся монстр из мяса (воплощение главного героя) каждый раз не дает ему уйти. Монстр мучает его, заставляя взглянуть в лицо своему прошлому.

Использование ИИ было единственным способом добиться желаемого эффекта при ограниченном бюджете, объяснил Антеби. Вместе с этим «Мясной человек» вызывал эффекты галлюцинаций, которые символизировали внутреннее состояние персонажа.

👻 Обозреватель Bloomberg Рэйчел Метц так описывает 10 ИИ-фильмов: «не менее странные, чем можно было ожидать». Она отметила, что общий характер работ за год изменился: киноленты стали меньше похожи на эксперименты и больше — на сами фильмы.

📺 Директор и член жюри фестиваля Пол Трилло перед фестивалем сам представил новый клип — для инди-музыканта Washed Out на песню The Hardest Part, при создании которого использовал Sora от OpenAI.

👩‍💻 Через несколько лет ИИ-произведения смогут стать самостоятельным видом искусств, считает основатель Runway Кристобаль Валенсуэла. С помощью этой технологии люди будут наблюдать за генерацией видео в реальном времени. Такой вид искусства, по его мнению, необязательно будет конкурировать с «обычным» кинематографом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21🤔1
10000000_1147164326436676_1089436114145029240_n.gif
12 MB
Meta* обновила рекламные ИИ-инструменты — рекламодатели могут генерировать изображения и заголовки объявлений

🖱Среди новых функций — уже не только создание фонов для товаров (это было и раньше), но и генерация новых изображений с учетом продукта. Еще ИИ сможет расширить изображения под разные площадки (например, для ленты или Reels) с учетом требований сторон.

🖼 ИИ в рекламных инструментах Meta также может создать альтернативные версии заголовка в объявлениях. Компания тестирует функцию, при которой этот текст будет подстраиваться под ToV бренда. Из других новых «текстовых» функций — создание надписей в разных шрифтах с помощью Meta Llama 3.

Meta утверждает, что у нее есть защитные механизмы, которые не позволяют ее системе генерировать неуместный рекламный контент или низкокачественные изображения. Один из них — так называемая постзащита, отсеивающая сгенерированный текстовый и графический контент, не отвечающий качеству или считающийся неуместным 🔐

Компания провела стресс-тестирование функции с использованием LLaMA и рекламы вместе с экспертами, чтобы попытаться найти неожиданные способы ее использования и устранить уязвимости.

📈Производитель чехлов для смартфонов Casetify, использовавший рекламные ИИ-инструменты, сообщил, что за счет функции GenAI Background Generation отдача от рекламы выросла на 13%. Компания использовала эту опцию в наборе инструментов автоматизации рекламы Advantage+.

📅 Все ИИ-функции для рекламодателей будут доступны по всему миру к концу года.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2🔥1
Google отвечает OpenAI? Пока только показывает

Большая часть новинок со вчерашней презентации Google I/O будет доступна позже в этом году или пока только в закрытом тестировании — в то время как GPT-4o уже доступна многим пользователям.

📱 Google тоже работает над персональным ассистентом. Помощнику Project Astra также можно будет показывать видео с камеры и спрашивать о том, что находится в кадре. Но, судя по видео, он пока не обладает харизмой GPT-4o: не может в смех и сарказм. Зато запоминает последний 1 час видео, которые ему показывали.

🧐 Нам затизерили очки с ИИ. В ролике с демонстрацией Gemini Live были примеры, как функция работает не только с камерой смартфона, но и с AR-очками. Других подробностей пока нет.

Google представил новых конкурентов Sora и Dall-E. Text2Image нейросеть Imagen 3, если верить демоизображениям, неплохо справляется с детализацией и текстами на картинках, Text2Video модель Veo выдает картинку, сопоставимую по качеству с Sora, хотя и мыльную. Veo, к слову, обещают встроить в YouTube Shorts.🎞

🎧 Анонсирован набор инструментов для создания музыки Music AI Sandbox. С его помощью можно сгенерировать сэмплы с нуля, менять по промпту готовые сэмплы и переносить стили звучания. Music AI Sandbox работает на основе уже известной нам Lyria от DeepMind.

📃 Другие интересные нововведения. В Google Photo теперь можно «поговорить» со своими фотографиями: попросить найти конкретные места, людей или предметы. В Gmail появились зачатки агентности: ИИ сможет не просто найти, написать и саммаризировать письма, но и, например, самостоятельно организовать возврат товара на маркетплейс. ИИ-поиск с саммарийзингом результатов вышел из экспериментального режима и доступен всем в США.

Фото: Imagen 3, видео: демо Project Astra, Veo и Music AI Sandbox
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🤔1