Media is too big
VIEW IN TELEGRAM
Инди-музыкант Эрнест Грин, выступающий под псевдонимом Washed Out, выпустил клип на новую песню The Hardest Part.
Мы недавно писали, что профессионалы много говорят об ограничениях при работе с Sora, которые не дают ей стать настоящим инструментом для творчества.
✂️ Авторы не видят проблемы и в том, что клип пришлось монтировать из 700 генераций нейросети (в клипе в итоге использовали только 55 генераций). Трилло также решил не исправлять очевидные глюки в некоторых генерациях.
📆 На создание клипа ушло 6 недель.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👍2🔥1
OpenAI тайно выпустил новую LLM, в России пройдет конкурс нейрокино, выручка Samsung выросла на 930% — и другие важные новости за неделю
✅ OpenAI тайно опубликовал новую LLM gpt2-chatbot на LMSYS Chatbot Arena (площадка для сравнения производительности языковых моделей). Несмотря на название, модель оказалась мощнее GPT-4. Это породило массу слухов о том, что gpt2-chatbot на самом деле GPT-4,5 или даже какая-то ранняя версия GPT-5. Сами OpenAI релиз не комментировали, а через несколько дней LLM стала недоступна;
✅ TikTok смог договориться с Universal Music об использовании музыки лейбла в соцсети. В феврале компании сильно поругались, Universal фактически обвинял TikTok в шантаже и навязывании своих условий в использовании и монетизации музыки. Теперь конфликт улажен, TikTok пошел на уступки и даже согласился «защищать» артистов Universal от генеративного ИИ. Но на фоне вероятного запрета на работу TikTok в США новое соглашение может оказаться довольно бессмысленным;
✅ Microsoft решил инвестировать миллиард долларов в OpenAI, испугавшись успехов в разработке ИИ, которых достиг стартап, а также конкуренты из Google. Это стало известно из переписки топ-менеджеров Microsoft того времени, которую опубликовали в рамках расследования Минюста США в отношении Google. Расследование связано с возможными антимонопольными действиями компании. Впоследствии Microsoft инвестирует в OpenAI более $10 млрд;
✅ Операционная выручка Samsung подскочила сразу на 930% за I квартал этого года — до 36,3 трлн корейских вон (около $26 млрд). Причина, конечно же, в буме ИИ и вызванным им ростом спроса на компьютерную память, серверы и SSD-накопители. Samsung ожидает, что во второй половине года показатели продолжат расти, и наращивает производственные мощности;
✅ В России пройдет конкурс генеративных фильмов. Участники должны будут за 48 часов сгенерировать сюжетное видео на заданную тему (можно и не на тему, но тогда останешься без дополнительных баллов). Зарегистрироваться на конкурс можно через сайт. Творческое задание опубликуют 11 мая, победителей назовут 16 мая;
✅ Нейросети будут писать объявления за пользователей Авито. Сервис обучил LLM (какую именно, не уточняется) на 400 тыс. объявлений пользователей. Пока опция доступна только в мобильном приложении и только для одной категории товаров — Обувь, одежда, аксессуары. От пользователя требуется написать заголовок объявления, прикрепить фотографии товара и уточнить несколько деталей о нем;
✅ Глава OpenAI Сэм Альтман вошел в Совет безопасности ИИ. Совет будет консультировать Министерство внутренней безопасности США по вопросам интеграции ИИ в критически важную инфраструктуру Штатов. Кроме Альтмана в совет вошли главы Nvidia, Microsoft, Alphabet и другие.
✅ OpenAI тайно опубликовал новую LLM gpt2-chatbot на LMSYS Chatbot Arena (площадка для сравнения производительности языковых моделей). Несмотря на название, модель оказалась мощнее GPT-4. Это породило массу слухов о том, что gpt2-chatbot на самом деле GPT-4,5 или даже какая-то ранняя версия GPT-5. Сами OpenAI релиз не комментировали, а через несколько дней LLM стала недоступна;
✅ TikTok смог договориться с Universal Music об использовании музыки лейбла в соцсети. В феврале компании сильно поругались, Universal фактически обвинял TikTok в шантаже и навязывании своих условий в использовании и монетизации музыки. Теперь конфликт улажен, TikTok пошел на уступки и даже согласился «защищать» артистов Universal от генеративного ИИ. Но на фоне вероятного запрета на работу TikTok в США новое соглашение может оказаться довольно бессмысленным;
✅ Microsoft решил инвестировать миллиард долларов в OpenAI, испугавшись успехов в разработке ИИ, которых достиг стартап, а также конкуренты из Google. Это стало известно из переписки топ-менеджеров Microsoft того времени, которую опубликовали в рамках расследования Минюста США в отношении Google. Расследование связано с возможными антимонопольными действиями компании. Впоследствии Microsoft инвестирует в OpenAI более $10 млрд;
✅ Операционная выручка Samsung подскочила сразу на 930% за I квартал этого года — до 36,3 трлн корейских вон (около $26 млрд). Причина, конечно же, в буме ИИ и вызванным им ростом спроса на компьютерную память, серверы и SSD-накопители. Samsung ожидает, что во второй половине года показатели продолжат расти, и наращивает производственные мощности;
✅ В России пройдет конкурс генеративных фильмов. Участники должны будут за 48 часов сгенерировать сюжетное видео на заданную тему (можно и не на тему, но тогда останешься без дополнительных баллов). Зарегистрироваться на конкурс можно через сайт. Творческое задание опубликуют 11 мая, победителей назовут 16 мая;
✅ Нейросети будут писать объявления за пользователей Авито. Сервис обучил LLM (какую именно, не уточняется) на 400 тыс. объявлений пользователей. Пока опция доступна только в мобильном приложении и только для одной категории товаров — Обувь, одежда, аксессуары. От пользователя требуется написать заголовок объявления, прикрепить фотографии товара и уточнить несколько деталей о нем;
✅ Глава OpenAI Сэм Альтман вошел в Совет безопасности ИИ. Совет будет консультировать Министерство внутренней безопасности США по вопросам интеграции ИИ в критически важную инфраструктуру Штатов. Кроме Альтмана в совет вошли главы Nvidia, Microsoft, Alphabet и другие.
👍3🤔2🔥1
StoryDiffusion — это плагин для диффузионных Text-to-Image нейросетей от ByteDance, который позволяет генерировать одинаковых персонажей на нескольких генерациях. Также можно использовать референсы.
🎞 Плагин работает и с видео, чтобы генерации не превратились в персонажей «Следующая остановка — Париж» и не меняли внешность в каждом кадре.
Использование модуля также позволило снизить требовательность StoryDiffusion к ресурсам по сравнению с конкурентами.
💬 Авторы отдельно отмечают, что StoryDiffusion хорошо справляется с генерацией комиксов.
Подробно почитать о плагине можно здесь, сгенерировать свой комикс предлагают здесь (у нас демо так и не загрузилось).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Media is too big
VIEW IN TELEGRAM
🗣 Потерявший голос певец смог записать первую за 10 лет песню, используя ИИ
Рэнди Трэвис лишился голоса в 2013 году в результате инсульта. Благодаря генеративному ИИ музыкант смог записать первый более чем за 10 лет трэк.
🔩 Продюсеры музыканта натренировали ИИ (какую именно не уточняется) на 42 записях вокала Трэвиса.
🎙 Они не стали использовать просто голосовой клон Трэвиса, а пригласили другого певца — Джеймса Дюпре, который спел песню Where That Came From.
🫡 Затем обученный ИИ трансформировал голос Дюпре в голос Трэвиса, сохранив особенности вокала второго. Продюсеры говорят, что около 75% результата работы ИИ можно было использовать сразу, остальное нужно было доработать.
📆 На создание трека ушло несколько месяцев.
💵 Where That Came From можно послушать, в том числе и на стриминг-сервисах. Видимо, это первый случай, когда у песни с клонированным голосом случился коммерческий релиз.
Рэнди Трэвис лишился голоса в 2013 году в результате инсульта. Благодаря генеративному ИИ музыкант смог записать первый более чем за 10 лет трэк.
🎙 Они не стали использовать просто голосовой клон Трэвиса, а пригласили другого певца — Джеймса Дюпре, который спел песню Where That Came From.
📆 На создание трека ушло несколько месяцев.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Фотографы опасаются, что их профессия может полностью исчезнуть из-за нейросетей.
🏫 Потенциально, фотографы могут зарабатывать на обучении нейросетей, которым вечно не хватает информации, на своих снимках. Но пока такие выплаты ничтожно малы. Например, фотограф Шеннон Фейган говорит, что в прошлом году получил от Adobe Stock единственную выплату за обучение ИИ на его фото — около 10-12% от того, что он обычно получает от Adobe за год.
🤖 Фотографов успокаивают стоковые агентства, с которыми они сотрудничают. Там утверждают, что ИИ никогда не заменит настоящие фото, а их клиентам нужны настоящие снимки, а не сгенерированные по промпту. При этом те же стоковые агентства работают над собственными нейросетями для генерации изображений. Свои модели уже есть у Shutterstock, у Adobe и у Getty.
🧍♀️ Стоковые агентства предлагают фотографам чутче реагировать на запросы рынка. Например, если всем нужны женщины в красном свитере, а у автора есть только фото с женщинами в синем свитере, то можно использовать ИИ, чтобы отредактировать изображение.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Гауссианы + Unreal Engine = ♥️
Команда разработчика Temporal Games смогла перенести объемное видео, созданное с помощью Gaussian Splatting, в среду Unreal Engine пятой версии.
🔩 Авторы использовали технологию рендеринга Animated Gaussian Splatting, которую также называют 4D Gaussian Splatting или 4DGS.
🔦 Использование видео вместе с UE5 позволяет в реальном времени редактировать 3D. В видео выше можно посмотреть, как разработчики меняют освещение в виртуальной сцене.
🎧 У 4DGS большой потенциал — в обозримом будущем нам станет доступен стриминг 3D-видео в качестве, сопоставимом с качеством просмотра видео онлайн сегодня.
😼 Весь вопрос в том, какие мощности для этого понадобятся. Один кадр, созданный с помощью 4DGS и содержащий 200 тыс. гауссиан, даже после сжатия весит больше 1,5 мб. Это значит, что часовая запись пристойного качества будет весить больше 300 Гб.
😐 Temporal Games сообщают, что нашли способы сжать анимацию еще больше, сохраняя плавность изображения. При этом качество изображения может адаптироваться в зависимости от пропускной способности сети. По итогу, как утверждается, разработчиком удалось оптимизировать требования к системе 4DGS до уровня статичных гауссиан (это значит: минимум 4 Гб видеопамяти для просмотра и около 12 Гб — для создания).
В обозримом будущем разработчики планируют открыть доступ к технологии для игровых разработчиков и веб-платформ.
Команда разработчика Temporal Games смогла перенести объемное видео, созданное с помощью Gaussian Splatting, в среду Unreal Engine пятой версии.
В обозримом будущем разработчики планируют открыть доступ к технологии для игровых разработчиков и веб-платформ.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤔1
ChatGPT теперь работает на 4o и косплеит подругу из фильма «Она»
4️⃣ GPT-4o (нет, не «чо» — «о» там от слова omni) — новая мультимодальная модель, которую обучали сразу на тексте, фото и видео. С ней можно общаться текстом, голосом и по аудиовидеосвязи: например, запустить трансляцию с камеры и попросить объяснить, что происходит в кадре.
Но самое интересное — ChatGPT теперь будет работать как голосовой ассистент. Он отвечает так же быстро, как обычный человек во время живого общения — так как над генерацией голоса работает та же LLM, что формирует ответ⚡️
👫 Модель подстраивает интонацию под тон и выражение лица собеседника, шутит над ним и смеется. Она может говорить с сарказмом или шепотом, имитировать голос робота и петь. GPT-4o переводит тексты на фото, а также беседу людей, говорящих на разных языках, в реальном времени.
💃 Отвечает ассистент женским голосом — поэтому все (включая Сэма Альтмана) тут же вспомнили ИИ-подругу из фильма «Она». Однако GPT-4o может исполнять любые роли: экскурсовода, преподавателя и т. п. Модель распознает фоновые шумы, понимает несколько собеседников, анализирует окружение пользователя и может встроиться в компанию. Например, заметив праздничный торт со свечами, GPT-4o поздравит именинника и организует офлайн-игру.
🤤 Доступ к GPT-4o будет бесплатным, но с лимитом запросов. У подписчиков Plus лимит будет в 5 раз больше. Бесплатными сделают и другие фичи из версии Plus: поиск информации в интернете, анализ данных и создание графиков, работу с изображениями и файлами, доступ к GPT Store.
👛 GPT-4o будет доступна по API и будет работать в 2 раза быстрее, чем GPT-4 Turbo. Обещают, что новая модель будет вдвое дешевле, чем текущее API.
🖥 Для macOS разработали десктопное приложение, до конца года появится приложение для Windows. В нем можно транслировать экран рабочего стола с программами и задавать по ним вопросы.
🗓 GPT-4o уже доступна большинству пользователей, другие фичи будут выкатывать в течение нескольких недель.
😜 Чем сегодня ответит Google?
Но самое интересное — ChatGPT теперь будет работать как голосовой ассистент. Он отвечает так же быстро, как обычный человек во время живого общения — так как над генерацией голоса работает та же LLM, что формирует ответ
👫 Модель подстраивает интонацию под тон и выражение лица собеседника, шутит над ним и смеется. Она может говорить с сарказмом или шепотом, имитировать голос робота и петь. GPT-4o переводит тексты на фото, а также беседу людей, говорящих на разных языках, в реальном времени.
🤤 Доступ к GPT-4o будет бесплатным, но с лимитом запросов. У подписчиков Plus лимит будет в 5 раз больше. Бесплатными сделают и другие фичи из версии Plus: поиск информации в интернете, анализ данных и создание графиков, работу с изображениями и файлами, доступ к GPT Store.
👛 GPT-4o будет доступна по API и будет работать в 2 раза быстрее, чем GPT-4 Turbo. Обещают, что новая модель будет вдвое дешевле, чем текущее API.
🖥 Для macOS разработали десктопное приложение, до конца года появится приложение для Windows. В нем можно транслировать экран рабочего стола с программами и задавать по ним вопросы.
🗓 GPT-4o уже доступна большинству пользователей, другие фичи будут выкатывать в течение нескольких недель.
😜 Чем сегодня ответит Google?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Media is too big
VIEW IN TELEGRAM
Runway AI провела второй фестиваль ИИ-фильмов — за год заявок стало в 10 раз больше
📺 В Лос-Анджелесе прошел второй AI Film Festival — фестиваль фильмов, сгенерированных ИИ. Если в марте прошлого года на фестивале представили 300 работ, то сегодня — 3 тыс., призовой фонд вырос до $60 тыс.
🥇 По требованиям фестиваля все фильмы должны длиться от одной до 10 минут, при их создании обязательно использовать ИИ — какой, вовсе не важно. Победителем стал клип на песню Get Me Out кинорежиссера Дэниела Антеби. При его создании он использовал три ИИ-инструмента, в том числе Gen-2 от Runway.
💀 По сюжету клипа, японец Ака пытается сбежать из своего мрачного дома в пригороде, но светящийся монстр из мяса (воплощение главного героя) каждый раз не дает ему уйти. Монстр мучает его, заставляя взглянуть в лицо своему прошлому.
Использование ИИ было единственным способом добиться желаемого эффекта при ограниченном бюджете, объяснил Антеби. Вместе с этим «Мясной человек» вызывал эффекты галлюцинаций, которые символизировали внутреннее состояние персонажа.
👻 Обозреватель Bloomberg Рэйчел Метц так описывает 10 ИИ-фильмов: «не менее странные, чем можно было ожидать». Она отметила, что общий характер работ за год изменился: киноленты стали меньше похожи на эксперименты и больше — на сами фильмы.
📺 Директор и член жюри фестиваля Пол Трилло перед фестивалем сам представил новый клип — для инди-музыканта Washed Out на песню The Hardest Part, при создании которого использовал Sora от OpenAI.
👩💻 Через несколько лет ИИ-произведения смогут стать самостоятельным видом искусств, считает основатель Runway Кристобаль Валенсуэла. С помощью этой технологии люди будут наблюдать за генерацией видео в реальном времени. Такой вид искусства, по его мнению, необязательно будет конкурировать с «обычным» кинематографом.
Использование ИИ было единственным способом добиться желаемого эффекта при ограниченном бюджете, объяснил Антеби. Вместе с этим «Мясной человек» вызывал эффекты галлюцинаций, которые символизировали внутреннее состояние персонажа.
👻 Обозреватель Bloomberg Рэйчел Метц так описывает 10 ИИ-фильмов: «не менее странные, чем можно было ожидать». Она отметила, что общий характер работ за год изменился: киноленты стали меньше похожи на эксперименты и больше — на сами фильмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2❤1🤔1
10000000_1147164326436676_1089436114145029240_n.gif
12 MB
Meta* обновила рекламные ИИ-инструменты — рекламодатели могут генерировать изображения и заголовки объявлений
🖱 Среди новых функций — уже не только создание фонов для товаров (это было и раньше), но и генерация новых изображений с учетом продукта. Еще ИИ сможет расширить изображения под разные площадки (например, для ленты или Reels) с учетом требований сторон.
🖼 ИИ в рекламных инструментах Meta также может создать альтернативные версии заголовка в объявлениях. Компания тестирует функцию, при которой этот текст будет подстраиваться под ToV бренда. Из других новых «текстовых» функций — создание надписей в разных шрифтах с помощью Meta Llama 3.
Meta утверждает, что у нее есть защитные механизмы, которые не позволяют ее системе генерировать неуместный рекламный контент или низкокачественные изображения. Один из них — так называемая постзащита, отсеивающая сгенерированный текстовый и графический контент, не отвечающий качеству или считающийся неуместным 🔐
Компания провела стресс-тестирование функции с использованием LLaMA и рекламы вместе с экспертами, чтобы попытаться найти неожиданные способы ее использования и устранить уязвимости.
📈 Производитель чехлов для смартфонов Casetify, использовавший рекламные ИИ-инструменты, сообщил, что за счет функции GenAI Background Generation отдача от рекламы выросла на 13%. Компания использовала эту опцию в наборе инструментов автоматизации рекламы Advantage+.
📅 Все ИИ-функции для рекламодателей будут доступны по всему миру к концу года.
*Организация, запрещенная на территории РФ
🖼 ИИ в рекламных инструментах Meta также может создать альтернативные версии заголовка в объявлениях. Компания тестирует функцию, при которой этот текст будет подстраиваться под ToV бренда. Из других новых «текстовых» функций — создание надписей в разных шрифтах с помощью Meta Llama 3.
Meta утверждает, что у нее есть защитные механизмы, которые не позволяют ее системе генерировать неуместный рекламный контент или низкокачественные изображения. Один из них — так называемая постзащита, отсеивающая сгенерированный текстовый и графический контент, не отвечающий качеству или считающийся неуместным 🔐
Компания провела стресс-тестирование функции с использованием LLaMA и рекламы вместе с экспертами, чтобы попытаться найти неожиданные способы ее использования и устранить уязвимости.
📅 Все ИИ-функции для рекламодателей будут доступны по всему миру к концу года.
*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2🔥1
Google отвечает OpenAI? Пока только показывает
Большая часть новинок со вчерашней презентации Google I/O будет доступна позже в этом году или пока только в закрытом тестировании — в то время как GPT-4o уже доступна многим пользователям.
📱 Google тоже работает над персональным ассистентом. Помощнику Project Astra также можно будет показывать видео с камеры и спрашивать о том, что находится в кадре. Но, судя по видео, он пока не обладает харизмой GPT-4o: не может в смех и сарказм. Зато запоминает последний 1 час видео, которые ему показывали.
🧐 Нам затизерили очки с ИИ. В ролике с демонстрацией Gemini Live были примеры, как функция работает не только с камерой смартфона, но и с AR-очками. Других подробностей пока нет.
Google представил новых конкурентов Sora и Dall-E. Text2Image нейросеть Imagen 3, если верить демоизображениям, неплохо справляется с детализацией и текстами на картинках, Text2Video модель Veo выдает картинку, сопоставимую по качеству с Sora, хотя и мыльную. Veo, к слову, обещают встроить в YouTube Shorts.🎞
🎧 Анонсирован набор инструментов для создания музыки Music AI Sandbox. С его помощью можно сгенерировать сэмплы с нуля, менять по промпту готовые сэмплы и переносить стили звучания. Music AI Sandbox работает на основе уже известной нам Lyria от DeepMind.
📃 Другие интересные нововведения. В Google Photo теперь можно «поговорить» со своими фотографиями: попросить найти конкретные места, людей или предметы. В Gmail появились зачатки агентности: ИИ сможет не просто найти, написать и саммаризировать письма, но и, например, самостоятельно организовать возврат товара на маркетплейс. ИИ-поиск с саммарийзингом результатов вышел из экспериментального режима и доступен всем в США.
Фото: Imagen 3, видео: демо Project Astra, Veo и Music AI Sandbox
Большая часть новинок со вчерашней презентации Google I/O будет доступна позже в этом году или пока только в закрытом тестировании — в то время как GPT-4o уже доступна многим пользователям.
Google представил новых конкурентов Sora и Dall-E. Text2Image нейросеть Imagen 3, если верить демоизображениям, неплохо справляется с детализацией и текстами на картинках, Text2Video модель Veo выдает картинку, сопоставимую по качеству с Sora, хотя и мыльную. Veo, к слову, обещают встроить в YouTube Shorts.
📃 Другие интересные нововведения. В Google Photo теперь можно «поговорить» со своими фотографиями: попросить найти конкретные места, людей или предметы. В Gmail появились зачатки агентности: ИИ сможет не просто найти, написать и саммаризировать письма, но и, например, самостоятельно организовать возврат товара на маркетплейс. ИИ-поиск с саммарийзингом результатов вышел из экспериментального режима и доступен всем в США.
Фото: Imagen 3, видео: демо Project Astra, Veo и Music AI Sandbox
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🤔1