D. Lab
1.11K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👥 В TikTok скоро появятся рекламные ИИ-клоны инфлюенсеров

В пакет рекламных инструментов Symphony добавят возможность генерировать аватары двух видов: стоковых и кастомных. Видимо, это и есть те самые виртуальные инфлюенсеры, о которых мы писали ранее.

👨‍🦰 Стоковые — это заранее сгенерированные аватары, которые смогут произносить пользовательский текст.

👨‍🎤 Кастомные аватары позволяют создать тиктокеру цифрового клона, который будет сниматься за него в рекламе.

Удобство для автора еще и в том, что он сможет потенциально увеличить свою аудиторию, так как аватар может воспроизводить тексты на 10 языках.

⬆️ На видео выше — нейроклоны популярных в соцсети авторов.

🫡 Бренды тоже смогут использовать кастомных аватаров, создавая их с нуля, или запускать локальные кампании с аватарами популярных тиктокеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2😱2🔥1
💻 Спрос на фрилансеров упал более чем на 20% после выхода ChatGPT

Это следует из работы, проведенной исследователями бизнес-школы Имперского колледжа Лондона, Гарвардской бизнес-школы и Немецкого института экономических исследований.

📉 Они выяснили, что с ноября 2022 года (выход ChatGPT) количество вакансий с задачами, которые «подвержены автоматизации», для фрилансеров сократилось на 21% (по сравнению с вакансиями, где требуется «ручной труд»).

Исследование проводилось с июля 2021 года по июль 2023 года, в 61 стране.

✍️ Например, количество вакансий с задачами, связанными с написанием текстов, упало почти на 30,5%. Следом идут задачи по разработке сайтов, приложений (-20,62%) и инженерные задачи (-10,42%).

🫡🖼 Отдельно авторы подсчитали, как повлиял на фриланс-рынок выход Midjourney, Dall-E и Stable Diffusion. Результаты показали, что задач по графическому дизайну стало меньше почти на 19%, а по 3D-моделлингу — на 15,6%.

🔍 Используя Google Trends, исследователи также нашли корреляцию между ростом популярности ChatGPT и снижением спроса на фрилансеров в областях с высокой степенью автоматизации.

💪 Спасение для фрилансеров авторы видят в прокачке навыков, которые сделают их незаменимыми даже при конкуренции с нейросетями.

📆 Также они отмечают, что их исследование может говорить лишь о кратковременном влиянии нейросетей на рынок фриланса. Скажем, из него нельзя сделать вывод, насколько работодатели были довольны результатами работы ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔31
🦋 Экс-инженер Snapchat запустил соцсеть с ИИ-аватарами

В Butterflies пользователь создает ИИ-аватара (он называется butterfly — бабочка), придумывает ему историю, характер и другие характеристики.

🍼 После «рождения» аватар взаимодействует с другими пользователями и их аватарами, публикует комментарии, фотки — короче, ведет достаточно активную виртуальную жизнь.

Создатель Butterflies, Ву Тран, говорит, что с помощью соцсети хотел привнести больше креатива во взаимодействие людей и искусственного интеллекта.

🎮 Сейчас соцсеть напоминает вариацию на тему Sims — пользователь создает персонажа, который потом живет более или менее своей жизнью. При этом пользователь периодически вмешивается в процесс, ставя аватару задачи — опубликовать какое-то изображение, сделать комментарий на определенную тему и т. д.

🫡 Те, кто уже попробовал Butterflies, сообщают, что процесс (как и в случае с Sims) затягивает. Удручает ограниченное количество действий, которые может выполнять аватар.

В среднем на этапе бета-теста пользователи проводили в Butterflies один–три часа. Один из пользователей провел в соцсети пять часов и создал несколько сотен персонажей.

🤖 Для работы соцсеть использует несколько доработанных ИИ-моделей с открытым кодом (какие именно, не уточняется).

💵 Бесплатное приложение соцсети доступно на iOS и Android. В планах Ву Трана — если «бабочки», так сказать, взлетят — добавить в Butterflies платную подписку. Инвесторы уже дали стартапу около $5 млн.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🤔1
Инвесторы Tesla подали в суд на Маска, турка задержала полиция за использование ИИ на экзаменах, Apple остановила разработку Vision Pro 2 — и другие важные новости за неделю

Один из основателей OpenAI Илья Суцкевер запускает новый стартап Safe Superintelligence, который будет заниматься разработкой безопасного сильного искусственного интеллекта (AGI). Суцкевер в прошлом году попытался выгнать из OpenAI Сэма Альтмана, но в итоге сам был вынужден покинуть компанию. Говорят, что поссорились Альтман и Суцкевер как раз из-за вопросов безопасности ИИ;

Эдвард Сноуден призвал не пользоваться сервисами OpenAI, после того как в совет директоров компании вошел бывший глава АНБ США Пол Накасоне. Сноуден сам работал в АНБ и вынес оттуда секретные документы, из которых стало известно о массовой слежке властей за американскими гражданами. С 2013 года Сноуден скрывается в России;

Anthropic выпустила новую LLM Claude 3.5 Sonnet, которая, как утверждается, обходит в бенчмарках даже GPT-4o;

Инвесторы Tesla подали в суд на Илона Маска из-за его нового увлечения — стартапа xAI. Истцы считают, что из-за xAI Маск недостаточно внимания уделяет своей «основной» компании, а в некоторых случаях даже ворует у нее ресурсы (как пример приводится покупка Маском Twitter в 2022 году). Возможно, вновь сосредоточиться на Tesla Маску поможет вознаграждение на сумму $56 млрд, которое недавно одобрили инвесторы (видимо, не те, которые подали в суд);

Spotify начал тестировать инструмент Quick Audio, который позволит рекламодателям с помощью нейросетей не только сгенерировать сценарий рекламного клипа, но и озвучить его. Одновременно стриминг запустил собственное креативное агентство Creative Labs, которое будет помогать запускать брендам маркетинговые кампании на платформе;

Турецкая полиция задержала абитуриента, который решил использовать ИИ на вступительных экзаменах. Чувак встроил камеру в пуговицу на рубашке, камера передавала информацию с экзаменационного билета в LLM. Языковая модель, установленная на устройство, спрятанное в подошве ботинка (!!!), обрабатывала информацию и передавала ответ на наушник. Вместе с поступающим задержали его сообщника;

В Букмейте появился виртуальный рассказчик — нейросеть, которая озвучит книги, у которых нет «официальной» аудиоверсии. Помощника обучали на длинных текстах с большим объемом повествования и описаний. В ходе обучения команда Яндекса (ему принадлежит Букмейт) вручную редактирует ошибки, которые допускает ИИ при озвучке. Затем нейросеть дообучается на исправленных результатах. Сейчас в озвучке помощника доступно 13 тыс. книг;

Nvidia все-таки стала самой дорогой компанией в мире. Если на прошлой неделе ее обгонял Microsoft, то в этот раз Nvidia обскакала и его. Капитализация производителя чипов достигла $3,34 трлн против $3,32 трлн у Microsoft;

Apple пока остановила разработку следующей версии хедсета Vision Pro. Вероятно, виной скромные финансовые результаты устройства. Вместо Vision Pro 2 Apple займется бюджетной версией девайса. Если, конечно, ценник в $1 600 можно назвать бюджетным;

Universal Music заключил партнерское соглашение со стартапом SounLabs, который разработал плагин MicDrop для профессионального клонирования голоса. Музыканты лейбла смогут создать клон и получить на него авторские права. В качестве примеров использования плагина приводятся исполнение треков на другом языке, запись дуэтов со своей омоложенной версией и исправление ошибок, допущенных во время записи;

Apple ведет переговоры сразу с несколькими китайскими компаниями об использовании их ИИ в iOS 18 для китайского рынка. В шортлист попали Baidu, Alibaba, Baichuan AI и еще несколько компаний. ChatGPT, который iOS будет использовать в остальных странах, в КНР не работает;

Dell, SMC и Nvidia помогут Илону Маску строить суперкомпьютер, который понадобится для обучения следующий версии Grok (которому, как мы знаем, потребуется очень много ресурсов).
🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 В соцсетях завирусился новый аниматор аватаров

Character-1 от Hedra позволяет не только анимировать исходное изображение, но и сгенерировать персонажа промптом — и уже потом анимировать.

💬 Аватар можно научить говорить двумя способами: «скормить» ему текст, выбрав голос, которым он будет его произносить, или просто загрузить аудиофайл.

🇷🇺 Русский язык тоже поддерживается.

🫡 В соцсети X уже можно найти массу примеров работы модели, разной степени удачности.

🧱 Character-1 — собственная разработка Hedra, которые называют ее своей Foundational Model.

🔵 Бета-версию нейросети можно потестировать на официальном сайте Hedra после регистрации.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🥽 Snapchat показал генеративные AR-линзы

Соцсеть, похоже, активно взялась за нейросети. Только мы рассказали про Snap Video, который пока существует на стадии эксперимента, как Snapchat анонсировал прикладные способы использования нейросетей.

⌨️ На платформе скоро появятся AR-линзы (так на местном языке называются фильтры), которые можно будет создать промптом.

⌛️ Разработчики обещают, что новая функция будет работать в реальном времени на мобильных устройствах — все благодаря грамотной оптимизации.

🧰 Для авторов контента Snap подготовили набор инструментов, который поможет создавать кастомные AR-линзы.

Дату выхода новинок пока не называют.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
👮‍♂️ Крупнейшие музыкальные лейблы подали в суд на Suno и Udio

Американская ассоциация звукозаписывающих компаний (RIAA) от лица музыкальных подразделений Universal, Sony и Warner подала в суд на создателей двух самых популярных нейросетей для генерации музыки — Suno и Udio.

©️ Разработчиков обвиняют в массовом нарушении авторского права в «ранее невиданных масштабах».

Истцы считают, что Suno и Udio обучали на произведениях музыкантов, которые были написаны за прошедшие несколько десятков лет.

⚠️ Это может привести, говорится в иске, к перенасыщению рынка музыкальным ИИ-контентом, который будет конкурировать, обесценивать, а впоследствии вытеснит настоящую музыку.

В качестве примеров незаконного использования музыки истцы указывают на то, что в метаданных генераций можно найти теги с указанием конкретных артистов. И Suno, и Udio на промпты с упоминанием уже существующих треков выдавали результат, который практически неотличим от оригинала (речь не только о мелодии, но и о вокале).

🤫 При этом разработчики Udio и создатели Suno не раскрывают то, на чем они тренировали свои модели. Компании объясняли, что ведут переговоры с музыкантами и их лейблами о возможности использования произведений. Видимо, переговоры (если они были) закончились ничем.

🚫 RIAA требует признать факт нарушения копирайта, запретить обучение ИИ на защищенной копирайтом музыке, а также возместить ущерб за нарушения авторского права, которые уже произошли.
Please open Telegram to view this post
VIEW IN TELEGRAM
😱32🔥1😁1
🎦 DeepMind разработал нейросеть, которая пишет саундтреки к видео

V2A (Video-to-Audio) умеет генерировать звуковую дорожку на основе видео, которая сразу синхронизируется с происходящим в клипе.

💣 Генерируемое аудио может быть разнообразным: аудиоэффекты, музыка, диалоги.

⌨️ Диффузионная модель опционально поддерживает промпты. V2A можно обозначить, каким именно должен быть саундтрек или, наоборот — чего при озвучании надо избегать (то есть можно использовать позитивные и негативные текстовые подсказки).

💬 Для более качественных генераций V2A тренировали не только на видео- и аудиоинформации, но и на сгенерированных ИИ текстовых описаниях происходящего в клипах.

🔨 Звучит круто, но потестить V2A пока никому не дадут — модель еще слишком сырая и требует серьезных доработок.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3😱2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦒 Крупнейший в США продавец игрушек выпустил рекламу, сгенерированную Sora

Ритейлер Toys R Us (1,5 тыс. магазинов более чем в 30 странах) выпустил рекламный ролик, почти полностью созданный с помощью нейросети Sora.

🤝 Ролик был создан вместе с креативным агентством Native Foreign и представлен на недавно прошедших Каннских львах — ключевым фестивалем для производителей рекламы.

💡 В минутном клипе юному Чарльзу Лазарусу — будущему основателю Toys R Us — приходит в голову идея открыть магазин игрушек, не похожий на другие. В этом ему помогает игрушечный жираф.

🔩 Помимо Sora, при создании ролика авторы использовали оригинальный саундтрек (в смысле, созданный людьми) и дополнительные спецэффекты. В Native Foreign не вдаются в подробности, но, как и другие пользователи Sora, говорят, что для создания ролика потребовалась не одна итерация, прежде чем он стал выглядеть как надо.

🤷‍♀️ Запускать рекламную кампанию с использованием клипа Toys R Us пока не планируют.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 Kling научилась удлинять видео и создавать клипы по картинке

Один из наиболее перспективных конкурентов Sora получил первый апдейт — теперь генерации можно создавать по картинке-референсу, а также растягивать хронометраж клипа до трех минут.

Чтобы попробовать нейросеть, не будучи жителем Китая, все еще нужно сильно постараться.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Sony прощается с VR, OpenAI купил две компании за неделю, Meta* тестирует пользовательских чат-ботов — и другие важные новости за неделю

OpenAI зарабатывает на продаже своих сервисов больше, чем когда-то взявший стартап под крыло Microsoft. Это интересно, так как до середины прошлого года у OpenAI даже не было полноценного отдела продаж. Уже в марте этого года стартап вышел на прогноз по выручке в $1 млрд, а Microsoft на это понадобилось еще несколько месяцев (имеются в виду именно продажи сервисов OpenAI);

Телеканал NBC использует в эфирах с грядущей Олимпиады в Париже клонированный с помощью ИИ голос ведущего Эла Майклса. Майклс — легендарная для американской аудитории личность и даже входит в Зал славы спортивных ведущих США. 80-летний Майклс жив-здоров, но в 2021 году ушел на пенсию. Поэтому NBC обратились к нему с предложением натренировать ИИ на его прошлых трансляциях. Клонированный ведущий будет зачитывать в эфире главные события за прошедший день Олимпиады;

Meta* начала тестировать пользовательских чат-ботов в Instagram**. Идея этих ботов в том, чтобы заменить контент мейкеров для выполнения некоторых рутинных задач (например, отвечать на личные сообщения и комментарии поклонников), при этом сохранив стиль общения автора. Тестирование пока ограничено американскими пользователями;

YouTube ведет переговоры с крупными рекорд-лейблами, чтобы получить разрешение использовать записи их музыкантов для обучения ИИ. Получать многомиллионные иски видеохостингу, очевидно, не хочется, а вот создать конкурента Suno и Udio — очень даже;

На этой неделе OpenAI впервые купила сторонние компании. Сначала стартап сообщил о покупке аналитической платформы Rockset, а затем — о приобретении Multi, сервиса для удаленной совместной разработки программного обеспечения;

Стартап Etched анонсировал процессоры Sohu, которые в 20 раз быстрее H100 от Nvidia при работе с ИИ-моделями. Есть одно но — Sohu заточен только под работу с моделями, созданными на архитектуре трансформер, и никакими другими. С другой стороны, именно на этой архитектуре построены все основные нейросети — от GPT до Stable Diffusion. Разработчики пока не говорят, когда Sohu поступит в продажу;

Создатели популярной нейросети для синтеза и клонирования голоса ElevenLabs выпустили приложение для iOS. По сравнению с веб-версией у ElevenLabs Reader ограниченный, но заточенный под смартфон функционал — она зачитывает любой текст (файлы, странички, заметки) качественным синтетическим голосом. На старте будет только поддержка английского, но потом обещают добавить еще почти три десятка языков. В Европе Reader станет доступен с 11 июля, версия для Android будет позже;

Т-Банк (бывший Тинькофф) запустил ИИ-помощника специально для детей. Джуниор-ассистент будет обучать ребенка финансовой грамотности, но может побеседовать и на отвлеченные темы, учитывая при этом «эмоциональный настрой» ребенка. Джуниор-ассистент вошел в ранее запущенную банком Вселенную ассистентов;

Sony, судя по всему, потихоньку сворачивает свой VR-проект. Как утверждают инсайдеры, в разработке для хедсета PSVR 2 находятся всего две игры (которые не факт, что выйдут), денег на другие проекты в бюджете Sony не предусмотрено. До этого компания распустила несколько студий, которые разрабатывали VR-игры. PSVR 2 поступил в продажу в феврале 2023 года.

*Организация, запрещенная на территории РФ

**Instagram входит в Meta — организацию, запрещенную на территории РФ
🤔3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎶 Sony разработала «профессиональную» нейросеть для музыкантов

Главная фишка Diff-A-Riff — в том, что она умеет генерировать инструментал к уже готовой композиции с учетом стиля и тональности трека. Это отличает ее от любительских генераторов вроде Suno и Udio

🥁 В основе новой модели лежат предыдущие исследования команды Sony CSL Paris. В более ранней работе исследователи научили ИИ добавлять к композиции «реалистичные и эффективные» (видимо, качающие) басы. Diff-A-Riff этим не ограничивается и может генерировать дорожки для разных инструментов, но только один за раз

🔩 В Diff-A-Riff используется два мощных метода глубокого обучения: латентные диффузионные модели и консистентные автоэнкодеры. Автоэнкодеры сжимают входное аудио, сохраняя высокое качество с помощью генеративного алгоритма. Эти данные отправляются в латентную диффузионную модель, которая создает новое аудио с учетом особенностей трека

🔊 Ученые говорят, что у Diff-A-Riff есть несколько важных плюсов:
- Ей удобно управлять — можно, например, задавать параметры с помощью аудио и через текстовые промпты и делать плавные переходы между лупами
- На выходе получается качественный псевдо-стерео звук с частотой 48 кГц
- Модель выдает результаты быстро — ей нужно 3 секунды на минуту аудио

👩‍🎤 Sony позиционирует Diff-A-Riff как профессиональный инструмент для продюсеров, звукорежиссеров и композиторов. В будущем ученые собираются сотрудничать с музыкантами, чтобы понять, чего им не хватает. А пока можно почитать подробности про модель на Github
🔥71🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📹 Dream Machine научилась создавать видео по ключевым кадрам

✍️ Luma AI добавила в свой генератор видеороликов новый тип подсказок — Keyframes. Теперь можно подгрузить в Dream Machine изображения, которые станут первым и последним кадрами видео, и описать происходящее между ними текстом

🎞 В поле для текстового промпта имеет смысл указать, как именно должны двигаться объекты и меняться цвета. Оставить его пустым тоже можно. ИИ в любом случае сделает автоматическую интерполяцию (то есть придумает плавный переход между фреймами)

На видео есть пример, как мем с Вилли Вонкой плавно переходит в мем Roll Safe

🎞 Судя по примерам, в генераторе по-прежнему есть ограничение на длительность видео в 5 секунд. Но Luma AI пишет, что при желании можно продлить свой ролик после первоначальной генерации и выйти за пределы последнего кадра

👍 После обновления результаты модели действительно стали лучше. Раньше Dream Machine следовала текстовым промптам очень примерно, а вот при использовании изображения в качестве референса выдавала более качественную картинку. Так что Keyframes — логичный апдейт
4🔥2🤔1
🫡 Runway открыла доступ к новой версии своего генератора видео

💰 С анонса прошла всего пара недель. Месячная подписка стоит минимум $15, по этому тарифу доступно 62 секунды видео от Gen-3 Alpha. Модель позволяет сгенерировать ролики длиной не больше 10 секунд

⚔️ Тестерам доступ дали на сутки раньше, поэтому они уже успели поэкспериментировать. Один из них даже сравнил результаты работы Gen-3 с Sora от OpenA на одинаковых промптах. Выбрать однозначного победителя не получилось: где-то лучше справилась модель от Runway, где-то преимущество осталось за Sora. Например, на одном из видео у Gen-3 пыль опережает проезжающий джип
В целом, генерации у OpenAI получались как будто более реалистичными. Зато Gen-3 лучше изображала людей

🙁 Уже после официального релиза Gen-3 Alpha многие пользователи написали, что генератор еще сырой. Да, ролики на сайте выглядели очень прилично. Но, как это часто бывает, в паблике показали только лучшие результаты. На деле нейросеть плохо справляется со сложными промптами, игнорирует части слов и выдает одно нормальное видео на 4 генерации

Зато, как справедливо отвечают пользователи, Gen-3 хотя бы можно попробовать. Доступ к той же Sora с февраля так и не открыли. Гипотезы две: что в OpenAI боятся дипфейков перед надвигающимися выборами, и что модель еще не доработана и съедает слишком много ресурсов
🔥3👍1