D. Lab
1.1K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
Нейросеть Heygen переводит классику русских мемов на другие языки 🤪

В августе мы рассказывали о нейросети Heygen, которая генерирует суперреалистичные аватары из 2-минутных видео.

😂 Спустя месяц доступ к модели открыли всем — и в Рунете ей нашли свое применение. С помощью Heygen начали массово переводить вирусные видео из Рунета 2000-х–2010-х на другие языки. Тут и женщина в красном кандибобере, и идущий к реке, и борщ с капусткой и другие представители золотого фонда мемов.

👍 Шутки шутками, но в большинстве случаев Heygen здорово справляется с задачей. Проблемы возникают, когда дублировать нужно больше 1-го персонажа — тогда нейросеть может, например, всех озвучить одним голосом.

💲 Бесплатная версия Heygen ограничена по количеству генераций и продолжительности видео. Платная подписка начинается от $48 в месяц.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍4🥰1
Как создатели Photoshop собираются стать главными по нейросетям, выпустив свою ИИ-модель позже всех

Журнал Fast Company выпустил большой материал о том, как компания Adobe собирается конкурировать с нейросетями. Мы выбрали из текста главное:

🖱 В 2018 году одна из сотрудниц компании показала фичу Generative Shop (GenShop), которая позволяла заменять объекты на фотографиях 1 кликом. GenShop невероятно всех впечатлил, компания начала экспериментировать с генеративным ИИ;

📷 В Photoshop стали появляться нейрофильтры, которые позволяли сделать черно-белые фотографии цветными или состарить человека на фото;

😬 Несмотря на использование нейросетей до того, как это стало мейнстримом, к выходу ChatGPT, Stable Diffusion, Dall-E и т.д. Adobe оказался совершенно не готов — у компании были только отдельные инструменты, но не было собственной ИИ-модели;

🛒 Год команда Adobe провела в раздумьях о том, как ответить OpenAI. Рассматривался вариант лицензировать уже существующую нейросеть;

🤔 Adobe смущало, что модели типа Stable Diffusion и Midjourney обучены на чужом контенте, авторы которого не получают никаких денег;

😇 Поэтому в итоге было решено разрабатывать свою — «этичную» — нейросеть, на которую невозможно будет подать в суд за нарушение копирайта;

🆓 При обучении модели Firefly использовали изображения Adobe Stock;

🦸‍♂️ В таком решении есть очевидные минусы — например, нейросеть не знает как выглядят супергерои Marvel и DC. В Adobe успокаивают, что при необходимости смогут лицензировать необходимый контент;

🛠 Adobe уже разрабатывает модели, которые будут генерировать видео и 3D-объекты. В планах Adobe также есть создание кастомных нейросетей для корпораций типа Disney;

⚙️ В компании считают, что в будущем людям будут нужны не те нейросети, которые все делают за пользователя по 1 промпту, а те, которые дают максимальный контроль над созданием генерации. С учетом этого компания и собирается разрабатывать свои модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ, который создаст анимированный 3D-портрет по фото

AniPortraitGAN делает то, что делают многие другие модели — по 2D-фото создает 3D-аватар.

💆‍♂️ Но, во-первых, нейросеть умеет анимировать достаточно сложные области тела человека: плечи, шею, голову. Модель также реалистично передает мимику лица и «движение волос» при изменении положения головы.

🎮 Во-вторых, как утверждают разработчики, пользователь может контролировать то, какой в итоге получится генерация, а не просто рассчитывать, что ИИ правильно поймет его задумку.

Попробовать AniPortraitGAN пока не дают, так что придется поверить на слово.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
🔇 Создатели Stable Diffusion выпустили модель для генерации аудио

Диффузионная модель Stable Audio от Stability AI создает аудио в высоком качестве с частотой 44,1 кГц по текстовому промпту, в том числе и для коммерческого использования 🏪.

🎒 Модель тренировали на 800 тыс. самых разных аудиофайлов (музыка, звуковые эффекты, отдельные инструменты) общей продолжительностью 19,5 тыс. часов. Stable Audio частично использует наработки Dance Diffusion — другой аудиомодели, в разработке которой принимала участие Stability AI.

🛑 Stable Audio можно использовать бесплатно, но тогда продолжительность генераций будет ограничена 45 секундами, а их количество — 20-ю треками в месяц (и о коммерческом использовании можно забыть). За $12 в месяц можно будет сгенерировать 500 треков длительностью 1,5 минуты. Коммерческие клиенты могут настроить тариф под себя, в зависимости от потребностей.
🥇 Stability AI стали первыми из больших игроков на рынке ИИ, кто представил коммерческую нейросеть для генерации аудио. Похожие решения уже были у Meta* и у Google, но в их случае это скорее эксперименты, чем полноценные сервисы.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
ЕС допустит разработчиков ИИ до своих суперкомпьютеров, создателям Unity угрожают смертью, нейросеть создает газировку для Coca-Cola — и другие важные новости за неделю

Скандалом недели стала ситуация с игровым движком Unity. Его создатели неожиданно решили, что разработчики, игры которых используют Unity и заработали на этом от $200 тыс., должны платить отдельный взнос. Инди-разработчики были, мягко говоря, не в восторге, и Unity смягчили некоторые требования. Но было уже поздно — дошло до того, что сотрудникам Unity пришлось отменять встречу, так как руководству компании стали поступать угрозы расправой;

Coca-Cola утверждает, что разработала новый напиток с помощью нейросетей. Каждый, кто попробует лимитированную газировку Y3000, должен почувствовать «вкус завтрашнего дня». Что именно сделала нейросеть для приготовления напитка, Coca-Cola не раскрывает;

Wired рассказал, как в Финляндии заключенные по 3 часа в день занимаются обучением ИИ-моделей, за что получают около $1,5 в час. Вы удивитесь, но Сбер еще в 2020 году запустил аналогичный проект в пилотном режиме. Что с ним стало в итоге, неизвестно;

ЕС собирается открыть для ответственных разработчиков ИИ доступ к своим суперкомпьютерам. На них можно будет обучать новые модели. Чтобы стать ответственной, компании нужно будет подписаться под всеми требованиями ЕС к разработчикам умных алгоритмов. Сейчас у Евросоюза есть 8 суперкомпьютеров, установленных в нескольких странах блока;

BMW передумал брать отдельную плату за подогрев сидений в своих машинах. Концерн послушал не слишком позитивный фидбек от водителей и убрал опцию, которая должна была стоить $18 в месяц;

В Roblox появится возможность голосовых созвонов с использованием аватаров. Чтобы придать аватарам реалистичности, предусмотрена технология отслеживания мимики пользователя, но реализована она примерно, как в Memoji от Apple;

Сбер подсчитал, что доходы компании от внедрения ИИ в свои сервисы превысят в 2023 году ₽350 млрд. За период с 2020 года по 2024 год этот показатель составит около ₽1 трлн, прогнозирует Сбер;

Нейросеть Firefly от Adobe вышла из беты и теперь доступна всем желающим. Бесплатно на генерации дают 25 кредитов, дополнительные 100 кредитов обойдутся в $5; 1 кредит = 1 нажатие кнопки Generate;

Amazon продолжает интегрировать генеративный ИИ в свой маркетплейс в помощь продавцам. Компания представила инструменты, которые генерируют описание товара по нескольким словам; ИИ также может сам найти дополнительную информацию по товару в разных источниках и добавить в описание.
👍2
🔮 «Генеративный ИИ — всего лишь временная фаза. Будущее — за интерактивным ИИ»

👨‍💼 Сооснователь DeepMind Мустафа Сулейман поделился своим видением будущего для ИИ.

📈 Эксперт выделяет 3 волны развития ИИ. В основе 1-й волны лежит классификация — компьютер научился классифицировать различные типы входных данных: изображения, видео, аудио, язык. Сейчас мы находимся на 2-й, генеративной волне, когда на базе входных данных создаются новые данные.

🤖 По прогнозам Сулеймана, на 3-й волне ИИ-модели станут посредниками, выполняющими задачи как с помощью стороннего ПО, так и при помощи других людей. Пользователь будет сообщать ИИ цель, которую нужно достичь, а ИИ подберет инструменты для этого.

🧠 Технологии станут более самостоятельными, при этом за человеком всегда останется контроль ИИ. По мнению Сулеймана, сегодняшние технологии статичны — они делают то, что им говорит человек. В будущем у технологий появится свобода действий, если пользователь ее предоставит.

🚦 Сулейман подчеркивает, что ИИ будущего необходимо жестко регулировать, чтобы предотвратить опасные последствия. Для этого люди должны будут определить границы возможностей ИИ, которые он не сможет переступить.

🌟 Сейчас Мустафа Сулейман возглавляет компанию Inflection, развивающую «вежливого и учтивого» конкурента ChatGPT — чат-бота Pi. Компания привлекла инвестиции в размере $1,5 млрд.
🔥4👍3
Media is too big
VIEW IN TELEGRAM
👩‍🎤 Warner Music подписал нового цифрового артиста — и у нее уже есть первый клип

🎶 Речь о виртуальном инфлюенсере Noonoouri. Клип на дебютную песню артистки — Dominoes — уже доступен на YouTube.

Ролик также стал частью партнерства с фэшн-брендом Skims Ким Кардашьян. В видео Noonoouri носит одежду именно этого бренда 💃

👧 Noonoouri представили в 2018 году как 18-летнего аватара, после чего она стала сниматься в модных кампаниях Dior, Balenciaga и Valentino. Она стала 1-м виртуальным инфлюенсером, заключившим партнерство с фэшн-брендом. За свою карьеру Noonoouri собрала более 400 тыс. подписчиков в Instagram*. 

🎶 При создании голоса Noonoouri использовали голос реальной певицы (ее имя не раскрывают), который был изменен с помощью ИИ. 

🥇 Noonoouri первой из виртуальных инфлюенсеров заключила контракт с головной структурой Warner Music. Но еще до нее, в 2021 году, Ха Цзян (Ha Jiang) подписала контракт с Whet Records — китайским лейблом Warner Music Group.

*Instagram входит в Meta — организацию, запрещенную на территории РФ
👍1
🤖 Нечеловеческие игры: генеративный ИИ будет создавать половину контента в гейминге через 5–10 лет

🕹 Сейчас с помощью технологии создают менее 5% контента в играх, поделились аналитики Bain. 

💎 Большинство топ-менеджеров в индустрии считают, что генеративный ИИ повысит качество игр и ускорит их разработку. При этом только 20% считают, что технология снизит расходы на геймдизайн. 

🧩 Большинство (60%) респондентов не боятся, что ИИ заменит живых сотрудников и не считают его угрозой кадровому рынку. Также большинство уверены, что генеративный ИИ повлияет на игры гораздо сильнее, чем, например, VR и облачные технологии.

🎮 Генеративный ИИ становится все более частой практикой в разработке игр. Известные компании — Unity, Epic Games, Roblox и Ubisoft — объявили об интеграции генеративного ИИ в комплекты для разработки.
🇯🇵 Зачем Японии свой ChatGPT  

💰 Правительство страны и крупные техкомпании тратят сотни миллионов долларов на создание ИИ-моделей на базе японского языка.

🀄️ Эксперты считают, что иностранные ИИ-модели не могут понять все тонкости японского языка. В то время как английский алфавит состоит всего из 26 букв, в письменном японском языке активно используется около 3-х тыс. иероглифов. 

Языковые модели часто обучаются на общедоступных данных, большая часть которых — на английском языке. Поэтому ChatGPT иногда генерирует неточные и странные ответы на японском, используя редкие и непривычные японцам символы 🗣.

🍥 Но пока что японские языковые модели сильно отстают от ChatGPT. Чтобы оценить, насколько тонко языковые модели чувствуют японскую культуру и язык, группа исследователей запустила рейтинг Rakuda — ученые задавали чат-ботам вопросы о Японии и оценивали ответы. В итоге в рейтинге лидирует GPT-4 с 87% точностью ответов. Лучшая японская модель в рейтинге оказалась лишь на 4-м месте. 

🌟 Правительство страны готовит к запуску более сильные модели. Так, проект Fugaku LLM, использующий один из самых быстрых в мире суперкомпьютеров Fugaku, запустится в следующем году. В основу модели лягут от 30 млрд параметров. На смену Fugaku LLM может прийти еще более крупная модель, которая будет генерировать научные гипотезы на базе уже опубликованных исследований. На старте она будет использовать 100 млрд параметров. Для сравнения, у LLama 2 — 70 млрд параметров, а у GPT-4, по слухам, их 500 млрд (точное количество разработчики держат в секрете)

💎 Японские частные компании тоже развивают свои LLM. Производитель суперкомпьютеров NEC начал использовать генеративный ИИ на основе японского языка в мае. По данным компании, ИИ ускоряет создание отчетов на 50%, а разработку кода — на 80%. Тем временем SoftBank инвестирует около ¥20 млрд (~$130 млн) в ИИ-модель, которую планирует запустить в следующем году.
🔥3🤔1
👊 Universal Music объявляет войну генеративному шуму

🎸 Крупнейший звукозаписывающий лейбл и французский музыкальный сервис Deezer меняют экономику музыкального рынка.

🤑 Компании считают, что музыкальные мошенники, вооруженные ИИ, отбирают хлеб добросовестных артистов. С помощью технологии мошенники часто генерируют целые треки, состоящие из расслабляющих звуков, например, мурлыканья кошки или капель дождя. Затем они загружают аудио на платформы и привлекают слушателей, называя это «музыкой для релаксации» слушателей, получая доход. В некоторых случаях мошенники загружают тысячи версий 1 трека, меняя имя исполнителя. 

💰 Spotify недавно сообщил, что шумовые и эмбиент-подкасты собирают 3 млн часов прослушивания в день. При этом они монетизируются по тому же тарифу, что и музыка, записанная вживую. 

👂 С развитием генеративного ИИ загружать спам-музыку становится проще. По оценкам Deezer, на фейковую музыку приходится 7% прослушиваний.

🔉 Чтобы лишить мошенников дохода и поощрять труд музыкантов, Universal Music и Deezer будут резко понижать монетизацию для музыки, созданную ИИ. Также для поддержки профессиональных артистов Deezer увеличит выплаты вдвое, если артист набрал 1 тыс. прослушиваний в месяц от более чем 500 уникальных слушателей.

При этом от новой модели монетизации могут пострадать начинающие музыканты без крупной фан-базы — на них приходится 80% всех артистов на стримингах. 😒
🤔5
🌟 DALL-E 3: в паре с ChatGPT, без новых мемов с селебрити

🏞 OpenAI анонсировала новую версию text-2-image нейросети. У нее есть явные преимущества перед DALL-E 2, но появились и ограничения. 

🔥 Нейросеть будет интегрирована с ChatGPT, то есть дизайнерам не нужно тратить время на составление четких промптов. Достаточно кратко описать желаемый результат, а ChatGPT сам дополнит запрос деталями.

Платные и корпоративные подписчики ChatGPT смогут генерировать картинки прямо в чате с октября.

🌈 Качество изображений DALL-E 3 заметно лучше, чем у прошлой версии — нейросеть создает детализированные рисунки, хорошо выстраивает сложные композиции и ракурсы.
 
Также DALL-E 3 умеет четко прорисовывать кисти рук — по крайней мере, так заявляют разработчики. Еще примеры от OpenAI демонстрируют, что DALL-E 3 может генерировать изображения с четко прописанным на нем текстом, а не набором неясных символов.

🙅‍♀️ Одновременно с этим, у нейросети появились и ограничения. Так, DALL-E 3 не будет изображать известных людей, даже если указать имя в промпте, а также копировать стиль ныне живущих художников. 

Ждем, что ответят на это разработчики Midjourney и Stable Diffusion.
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 ИИ победил человека в соревновании дронов

🏆 Важное событие в мире робототехники — дрон с автоматическим ИИ-управлением обошел аппарат, управляемый живым оператором в рамках соревнований.

🛸 Беспилотники должны были пройти полосу препятствий: эксперты проверяли скорость и ловкость дронов при выполнении сложных маневров. Самоуправляемый дрон Swift соревновался с тремя опытными пилотами и обошел их в 15 из 25 испытаний. Swift работает на базе нейросети и собирает данные в реальном времени с помощью камер.

🤖 Это первый случай, когда автономный дрон одержал верх над людьми в нецифровом соревновании. До этого ИИ побеждал людей только в онлайн-играх: шахматах, шашках, StarCraft и др.
🔥6🤔1
🧠 MIT представил топ современных новаторов до 35 лет

Из 35 человек 8 работают в области ИИ. И неудивительно — авторы списка назвали ИИ одной из самых революционных технологий этого года. 

🥇 Звание «Новатор года» присудили 32-летней Шэрон Ли за ее исследования в области безопасности ИИ. Ли называют пионером в области детекции неизвестных данных OOD (out-of-distribution detection): функция предотвращает сбой моделей при столкновении с незнакомыми сценариями. Ли разработала один из первых алгоритмов детекции неизвестных данных в глубоких нейросетях, после чего Google создал команду для таких систем в свои продукты.

🏥 28-летний Пранав Раджпуркар разработал способ, с помощью которого ИИ может точно интерпретировать медицинские изображения без помощи человека. Его системы на уровне экспертов выявляют патологии, которые могли остаться незамеченными.

💊 Также в список вошел 29-летний Коннор Коли, разработавший набор инструментов ASKCOS для обнаружения и синтезирования новых молекул. Набор используют более 10 фармкомпаний и десятки тысяч химиков для создания новых лекарств и материалов.

🏭 Еще 1 ученый в топе MIT — Кэтрин Де Вульф. Она использует ИИ для снижения выбросов и отходов в строительстве. 

🕹 34-летний Альхуссейн Фавзипионер в использовании игрового ИИ для ускорения фундаментальных вычислений. Фавзи подходит к поиску новых алгоритмов как к игре и использует для этого игровой ИИ DeepMind AlphaZero.

⛅️ Саша Луччиони — 33-летняя исследовательница из Hugging Face — разработала для техкомпаний способ оценки углеродного следа языковых моделей. Метод рассчитывает выбросы углекислого газа, учитывая воздействие на климат на протяжении всего жизненного цикла ИИ-модели.

🤖 Ирен Сулейман — бывший исследователь в OpenAI. В 2019 году она предложила новый подход к запуску GPT-2, предшественника ChatGPT. Сулейман рекомендовала выпускать новые модели поэтапно, чтобы было больше времени на тестирование. OpenAI, Microsoft и Meta теперь используют этот подход для ChatGPT, поисковика Bing и модели LLaMA соответственно.

👀 Старший научный сотрудник Adobe Ричард Чжан изобрел алгоритмы визуального сходства, лежащие в основе моделей для генерации изображений — Stable Diffusion и Stylegan.
3🤔2