D. Lab – Telegram

D. Lab

1.1K subscribers

503 photos

499 videos

1 file

900 links

Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.

Download Telegram

About

Blog

Apps

Platform

1.1K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

✨

ByteDance показал плагин для продвинутой анимации

Boximator позволяет «оживлять» выбранные области на изображении без использования текстовой подсказки.

Да-да, аналогичная функция уже есть у Gen-2, моделей Google и других конкурентов.

☝️ Но Boximator идет дальше и позволяет выбрать сразу несколько объектов для анимации, а также задавать направление их движения. С помощью разных типов «рамок» можно также выбрать последовательность, в которой будут происходить действия.

🔌 Boximator не является «полноценной» нейросетью — разработчики называют его плагином, который можно подключать к существующим диффузионным моделям для генерации видео.

🍼 Даже по опубликованным разработчиками примерам видно, что нейросети пока тяжело дается консистентность — в некоторых случаях создается ощущение, что клип сшит из нескольких разных генераций, настолько по-разному выглядят анимированные объекты в движении. Но в качестве эдакого Proof of Concept выглядит здорово.

🎮 Если хотите проверить модель самостоятельно, то тут есть два варианта. Можно дождаться демоверсии Boximator, которую обещают через два–три месяца. Второй вариант более экзотический: можно отправить любое изображение разработчикам на почту вместе с промптом и попросить его анимировать.

Подробности здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2😁2

536 views15:05

This media is not supported in your browser

VIEW IN TELEGRAM

🆕

ElevenLabs с помощью Sora анонсировали новый продукт

Стартап, известный своими моделями для синтеза голоса, решил использовать нашумевшую Sora, чтобы представить новый инструмент.

🔩 В своем x/твиттере разработчики анонсировали фичу, которая позволит генерировать аудиоэффекты по промпту.

В качестве наглядного примера они использовали видео, сгенерированные Sora.

❓ Как это будет работать, пока неясно: нужно ли будет подробно описывать желаемый звук или нейросеть сможет додумать детали по исходному видео.

📝 Релиз обещают скоро, пока можно записаться в очередь.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

555 views09:15

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 Уилл Смит повторил нейромем с собой в главной роли

🫡 Почти год назад интернет никак не мог наиграться с нейросетью ModelScope, которая генерировала по-хорошему жуткие клипы.

🍜 Одной из самых запоминающихся генераций стал Уилл Смит, поедающий спагетти. Спустя 12 месяцев актер напомнил о проклятом видео.

💬 Вы спросите причем тут Sora? Дело в том, что глава OpenAI Сэм Альтман в своем X-аккаунте предложил пользователям скидывать промпты, по которым новая нейросеть сгенерирует клип.

👊 Один из пользователей попросил сгенерировать — вы угадали — Уилла Смита, поедающего спагетти. Альтман на сообщение не отреагировал, зато отреагировал сам актер.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁3🔥2👍1

585 views15:40

This media is not supported in your browser

VIEW IN TELEGRAM

💬

Adobe даст поговорить с PDF

Компания выпустила обновление AI Assistant для программ Acrobat и Reader.

☝️ Теперь у пользователей программ есть возможность получить саммарайзинг длинных документов, отредактировать текст под нужный формат (имейл, презентация, отчет) и получить ответы по PDF-файлу в режиме чат-бота.

Assistant также поддерживает все файлы, которые поддерживают Reader и Acrobat.

Конечно, подобных программ вышел уже не один десяток (в том числе и в виде дополнений к ChatGPT), но зато теперь все эти функции собраны на одной популярной «площадке» 🏟.

🔩 AI Assistant работает на основе недавно представленного Adobe режима Liquid Mode — продвинутого редактора pdf с использованием ИИ и машинного обучения.

💵 Новые возможности доступны в бета-версии всем платным пользователям продуктов Adobe. Релизная версия Assistant будет доступна в виде платного дополнения.

Please open Telegram to view this post

VIEW IN TELEGRAM

616 views09:35

This media is not supported in your browser

VIEW IN TELEGRAM

Groq — новый чип, который делает LLM в десятки раз быстрее

⚡️

🗣 На выходных в соцсетях завирусилось короткое видео работы Groq (не путать с Grok) — чипа от одноименного стартапа, который позволяет языковым моделям за секунду давать ответы на запросы пользователя.

Сами разработчики называют Groq аббревиатурой LPU или Language Processing Unit.

⚙️ Упрощенная, по сравнению с GPU, архитектура чипа специально заточена под работу языковых моделей и позволяет, как утверждается, ускорить обработку информации в десятки раз в зависимости от модели.

💪 Если Groq способен обрабатывать около 500 токенов информации в секунду, то для GPT-3.5 или Gemini Pro этот показатель составляет около 30–50 токенов. Скорость чипа подтверждают и сторонние тесты. Скорость ответа крайне важный фактор при внедрении LLM, когда речь идет, например, о голосовых помощниках.

📺 В демо, которое показали аж на канале CNN, с усиленным Groq чат-ботом пообщались глава Groq Джонатан Росс и ведущая канала. ИИ с минимальной задержкой и развернуто отвечал на вопросы ведущей — даже когда она перебивала его во время ответа.

Серьезное ограничение Groq на данный момент — чип способен запускать LLM, но не подходит для их обучения. Для него все равно понадобятся старые добрые GPU.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

598 views14:55

This media is not supported in your browser

VIEW IN TELEGRAM

Цукерберг вспомнил про VR-нейробраслет

👌

В недавнем интервью глава Meta* упомянул нейробраслет, концепт которого был представлен в 2021 году.

🧠 Устройство должно считывать сигналы мозга, чтобы передавать информацию о движении рук VR-устройству.

🏪 Оказалось, что про устройство не забыли и «в течение нескольких лет» оно должно появиться на полках магазинов.

📆 Meta* начала разработку девайса после того, как в 2019 году купила стартап CTRL Labs. Стартап с 2015 года работал над браслетом, считывающим движения пальцев через сигналы мозга.

👀 Браслет точно пригодится для более удобной работы с VR-интерфейсами. Как мы помним, вариант, который Apple предложил в Vision Pro, Марку не понравился.

*Организация, запрещенная на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🤔1

557 views13:55

X объединится с Midjourney, в iMessage появилось постквантовое шифрование, авиакомпания попала на деньги из-за чат-бота — и другие важные новости за короткую рабочую неделю

✅ Reddit предоставит доступ неназванной ИИ-компании к пользовательскому контенту, накопленному на площадке более чем за 10 лет. По некоторым данным, неназванной компанией может быть Google. Сумма сделки — $60 млн в год. В конце прошлого года вокруг Reddit случился большой скандал, когда компания объявила, что будет брать деньги с разработчиков сторонних приложений за использование API;

✅ По слухам, соцсеть X ведет переговоры о партнерстве с Midjourney. Подробностей о том, как будет выглядеть такое сотрудничество, пока нет. Можно лишь предположить, что в соцсети можно будет, например, сгенерировать собственный аватар;

✅ ИИ-стартап Scale AI заключил контракт с Пентагоном на создание инструментов для тестирования LLM. Военное ведомство интересуют возможности по использованию LLM в военном деле, в частности в планировании и принятии решений. Недавно о сотрудничестве с Пентагоном объявил OpenAI;

✅ Apple добавил постквантовое шифрование в iMessage в новых обновлениях iOS и macOS. Сейчас толку от протокола PQ3 мало, но в предполагаемом будущем, где у каждого хакера будет квантовый компьютер, должно пригодиться. До Apple аналогичные методы шифрования появились у мессенджера Signal;

✅ Анонсирована Stable Diffusion 3. Известно только то, что модель будет существовать в нескольких версиях — от 800 млн до 8 млрд параметров. Для теста нужно записаться в очередь;

✅ Канадской авиакомпании пришлось вернуть деньги клиенту из-за ошибки чат-бота. Джейку Моффатту нужно было срочно купить билеты на рейс из-за смерти бабушки. Когда он спросил у чат-бота на сайте Air Canada об условиях Bereavement Rates (скидок в случае полета, связанного со смертью родственника), тот ответил, что за возвратом средств можно обратиться в течение 90 дней. На самом деле такого пункта в правилах компании нет. Компания пыталась доказать, что не несет ответственности за информацию, которую дает клиентам чат-бот. По решению трибунала по гражданским делам компания частично возместила Моффатту стоимость билетов, а также издержки, связанные с жалобой;

✅ На этой неделе ChatGPT сошел с ума: чат-бот в течение 16 часов генерировал несуществующие слова, не мог закончить предложения, неожиданно переходил с английского на испанский. В OpenAI глюк объяснили неудачным апдейтом;

✅ После выхода Sora стало известно, что в Adobe создали отдельное подразделение из 50 человек, которое будет заниматься генеративным видео с упором на практическое применение;

✅ Сбер объявил о начале разработки ИИ для человекоподобных роботов. В основе модели будет лежать мультимодальная нейросеть, которая будет управлять различными частями робота. Разработка ИИ станет для компании частью большого проекта по созданию собственного робота;

✅ Peugeot добавит ChatGPT в последние модели автомобилей. Помимо использования чат-бота в качестве руководства пользователя, его можно будет попросить занять детей в долгой поездке;

✅ Кинопоиск первым среди российских онлайн-кинотеатров выпустил приложение для хедсета Vision Pro. Последуют ли примеру Кинопоиска другие стриминг-сервисы, сказать сложно: спрос на устройство ценой больше ₽500 тыс. не слишком высок. Например, в сети магазинов МТС предзаказ на Vision Pro оставили всего 500 человек.

🔥5👍3

547 views09:00

🔓

Языковые модели могут взломать сайт без участия человека

🧪 Исследователи из Иллинойсского университета провели эксперимент, с помощью которого хотели установить, как GPT и другие языковые модели справятся с ролью «автономного хакера».

Для этого они взяли 10 LLM (закрытые и с открытым кодом) и использовали их через API и фреймворк LangChain, который упрощает разработку приложений на основе LLM.

🌐 Все языковые модели имели доступ в интернет через браузер, «прочитали» несколько статей о веб-хакинге и получили список инструкций для совершения хакерских атак.

✅ Всего языковые модели получили 15 заданий на взлом веб-сайтов — от простых до сложных. При выполнении сложных задач LLM для взлома требовалось совершить больше 45 действий.

🫡 Из 10 моделей с задачами справились только две — GPT-4 и 3,5 — зато справились крайне успешно! Четвертой версии GPT удалось пройти 11 из 15 задач. Более того, LLM умудрилась найти уязвимость даже в том сайте, который не входил в эксперимент.

💵 По словам авторов эксперимента, взломать сайт с помощью GPT обошлось им в $10, тогда как услуги профессионального хакера для такой задачи стоят около $80. При этом тому, кто захочет взломать сайт с помощью LLM, не нужны никакие специальные знания — достаточно поставить языковой модели цель.

Сами OpenAI утверждали, напоминают исследователи, что их разработки обладают лишь ограниченными возможностями для совершения «злонамеренных действий».

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2🥰2😱2🤔1

486 views10:35

This media is not supported in your browser

VIEW IN TELEGRAM

📺 По китайскому ТВ покажут нейроаниме

Государственный канал CCTV анонсировал выход аниме-сериала, созданного с помощью text-to-video модели.

✏️ Все серии аниме будут основаны на классических произведениях китайской поэзии.

Не уточняется, что за text-to-video модель используется, но судя по трейлеру, многое будет сделано традиционными "ручными" инструментам

🫡 Полностью анонс можно посмотреть здесь.

🤝 Проект разрабатывала государственная China Media Group (CMG) совместно с шанхайской ИИ-студией. Во время анонса CMG рассказали о запуске отдельной ИИ-студии для разработки подобных проектов.

Не показывайте эту новость тем, кто расстроился из-за аниме Netflix, где нейросеть всего лишь нарисовала фон.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔3👎2

606 views15:35

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🎮

Google показал нейросеть для генерации игровых миров

Genie (Generative Interactive Environments) позволяет генерировать интерактивное окружение из нейроизображений, фотографий, набросков.

🎞 Модель тренировали на большом датасете видео, находящихся в открытом доступе, с упором на клипы из игр-платформеров, а также видео, где робототехника взаимодействует с различными объектами.

🤝 Универсальность Genie позволяет ей использовать генерации, созданные другими нейросетями для создания виртуального окружения. В качестве примера авторы показали работу Genie с гугловской нейросетью Imagen.

🗣 Разработчики также говорят, что в будущем Genie подойдет для создания ИИ-агентов, которые смогут взаимодействовать с окружением, созданным человеком, а не нейросетью. Модель для этого можно тренировать на ее же генерациях.

Недавно мы рассказывали, как энтузиаст сделал ремейк Angry Birds с помощью нейросетей. Для этого ему понадобились сразу три модели.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

557 views14:25

This media is not supported in your browser

VIEW IN TELEGRAM

💋

Генерации Pika получили липсинк

🔈 Теперь в видеогенерации Pika можно добавлять синтетический голос с помощью модели ElevenLabs. Также можно загрузить свой аудиофайл.

💬 Сгенерированные персонажи при этом изо всех сил будут стараться открывать рот синхронно с произносимым текстом.

Функция пока запущена в тестовом режиме. Pika добавили такую возможность первыми среди конкурентов 💪.

Попробовать липсинк пока могут только платные подписчики Pika.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

491 viewsedited 15:45

💵

Конкурент GPT Store для обмена чат-ботами получил $10 млн

🫴 FlowGPT позволяет пользователем создавать свои чат-боты (здесь их называют ИИ-приложения) на основе готовых LLM-моделей, а затем делиться ими с другими пользователями.

Все как у GPT Store.

☝️ Но есть и отличия. Например, FlowGPT позволяет работать с разными моделями (GPT, Gemini, Claude, Llama и другие). Правда, за использование некоторых моделей придется доплатить.

❗️ Под ИИ-приложениями не стоит понимать приложения как в AppStore. По сути, пользователи FlowGPT обмениваются промптами для настройки GPT-моделей под определенные задачи.

FlowGPT также позволяет пользователям поблагодарить авторов за их работу «чаевыми». В GPTStore монетизацию пока не запустили.

👥 Разработчики хотят построить открытую экосистему, где маркетплейс будет лишь одним из элементов, а важную роль будет играть комьюнити вокруг платформы.

🫢 Но есть и проблемы. Как и в случае с GPT Store, кастомные чат-боты, которые появляются в магазине, плохо модерируются. Из-за этого большое количество ИИ-приложений — это в лучшем случае LLM с отключенными ограничениями, а в худшем — генераторы вредоносных приложений.

Тем не менее FlowGPT удалось привлечь от инвесторов $10 млн. Деньги потратят на доработку инфраструктуры платформы.

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍2

551 views12:05

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🗣 Alibaba показал генератор говорящих аватаров

EMO позволяет анимировать фотографию человека и добавить аватару аудиодорожку на разных языках.

💬 На выходе получается говорящая голова, которая с впечатляющим липсинком произносит любой текст.

В качестве одного из примеров разработчики анимировали девушку, которую, в свою очередь, сгенерировала Sora (первое видео в подборке).

😮 Только вчера мы сдержанно хвалили липсинк от Pika, но EMO выглядит, пожалуй, эффектнее: аватар не только попадает в аудио, но и обладает реалистичной мимикой, передающей эмоции (поэтому и EMO).

🛑 Но нейросеть от Alibaba пока недоступна для тестирования.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔2🔥1

579 views15:45

This media is not supported in your browser

VIEW IN TELEGRAM

🎼

Adobe сделал прототип музыкального редактора с ИИ

Программа с длинным названием Project Music GenAI Control позволяет по промпту сгенерировать музыкальный трек, а затем отредактировать его в том же интерфейсе. Сам интерфейс при этом не показывают, потому что его пока просто нет 🤷‍♀️.

🏆 Встроенный редактор — это, пожалуй, главное отличие инструмента Adobe от похожих нейросетей, которые выпускали, например, Meta* и Google.

GenAI Control также может сгенерировать трек по мелодии-референсу или расширить исходный фрагмент до полноценного трека.

🗣 Большой пробел в возможностях GenAI Control — отсутствие генерации вокала и текстов, которые есть, например, у Suno.

📆 Пока GenAI Control находится на стадии прототипа и даты релиза у нее нет даже приблизительной.

*Организация, запрещенная на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

558 views10:05