D. Lab
1.11K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
🆕 Главные анонсы конференции Microsoft Build 2024

Компания рассказала о 60 новых продуктах, а мы отобрали из них самые интересные. Естественно, большинство анонсов были связаны с ИИ.

📆 Помощник для забывчивых Microsoft представил свою версию сервиса Rewind под названием Recall. Сервис, интегрированный в Copilot, запоминает все, что вы делаете на Windows-устройстве, чтобы по запросу напомнить об этом. Интерфейс программы — таймлайн, на котором пользователь будет искать интересующий момент. Для работы Recall понадобится 50 Гб места на HDD.

🗣 Edge сможет переводить видео в реальном времени Браузер c помощью ИИ сможет дублировать видео во время просмотра. Сначала для видео с YouTube, Coursera и LinkedIn будет доступен перевод с английского на русский, немецкий, испанский, хинди.

🎮 Copilot поможет геймерам Помощник подскажет геймеру, что делать, если тот «застрянет» во время прохождения. Дальше — больше: майкрософтовцы показали на примере Minecraft, как помощник обучает правилам игры.

👁 Мультимодальная мини-LLM Phi-3-Vision Модель с 4,2 млрд параметров будет запускаться локально на устройстве и работать с изображениями и текстом. Phi-3 также доступна в версиях Mini, Small, Medium без мультимодальных возможностей.

🎨 У Paint официально появился Cocreator O Cocreator заговорили еще прошлой осенью, когда она стала ограниченно доступна в тестовом режиме. На Build Cocreator наконец презентовали официально. Нейросеть позволяет прямо из Paint генерировать изображения по промпту или наброску и редактировать его. Отдельным ползунком можно контролировать, как сильно ИИ может менять исходное изображение.

💻 Нас ждет множество ноутбуков с нативной поддержкой Copilot Microsoft анонсировал несколько устройств под общим названием Copilot+ PC, которые с завода будут поддерживать Copilot — своих (под брендом Surface) и от сторонних производителей: Acer, Dell, HP и др. Устройства построены на заточенном под ИИ процессоре Snapdragon X.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
💣 Пользователь Reddit показал нейроспецэффекты нового уровня

19-летний Алексей Лотков показал, какие чудеса может творить связка AnimateDiff (генератор анимации на основе Stable Diffusion) и After Effects.

🎞 Первый видос — результат 2,5 дней работы, а второй — короткий Making Of, где можно посмотреть, как вся эта красота делалась.

🔩 Для реализации потребовалась одна GeForce 4090.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61
Скарлетт Йоханссон обвинила OpenAI в краже голоса, IBM топит за опенсорс, ИИ-клоны от Microsoft будут отвечать на рекламные звонки — и другие важные новости за неделю

Бигтехи предлагают киностудиям купить их видеоконтент, чтобы тренировать на нем нейросети для генерации видео. С подобными приложениями в Голливуд пришли OpenAI, Meta* и Alphabet. Пока студии относятся к таким предложениям с опаской: кто-то готов лицензировать только определенный контент и только под конкретные задачи, а Disney и Netflix отказались от сотрудничества совсем;

Выручка мобильного приложения ChatGPT подскочила почти на половину после запуска модели GPT-4o. Так, 14 мая выручка составила $900 тыс. против среднего показателя в $491 тыс. С 13 по 17 мая подписка на приложение принесла разработчикам $4,2 млн. Рост выручки стал максимальным с момента запуска программы. Пользователи готовы платить $19,99 за мобильную подписку, хотя в веб-версии GPT-4o доступна бесплатно;

OpenAI заключил договор на использование контента в своих ИИ-моделях с издателем Wall Street Journal. News Corp получит больше $250 млн за пять лет (в том числе в виде доступа к продуктам OpenAI), а OpenAI сможет обучать свои нейросети на контенте, принадлежащих News Corp СМИ;

На неделе OpenAI также попала в очередной скандал. Одним из нововведений GPT-4o стали голосовые ассистенты, один из которых — Sky — подозрительно напоминал по голосу Скарлетт Йоханссон. В OpenAI отрицали, что Sky тренировали на голосе актрисы, но потом решили просто его удалить, чтобы избежать проблем. Но было поздно: Йоханссон выступила с официальным заявлением, где рассказала, что к ней обращались из OpenAI, чтобы поучаствовать в создании голосового клона, но она отказалась. Получалось так, что компания проигнорировала отказ актрисы и все равно клонировала ее голос. Как будет дальше развиваться конфликт, непонятно — независимая экспертиза показала, что голоса Sky и актрисы отличаются друг от друга;

IBM пошел по пути Meta* — компания планирует делать все свои модели опенсорсными. В начале мая компания открыла доступ к ИИ-моделям под общим названием Granite для написания программного кода. В случае с Granite IBM хочет зарабатывать на ПО, которое будет обеспечивать работу кастомизированных моделей на клиентских ЦОДах. Вероятно, некоторые модели будут монетизировать за счет пользователей, которые будут использовать их в коммерческих целях;

Google будет показывать рекламу в генеративной поисковой выдаче. Компания продемонстрировала, как это будет выглядеть: задавая вопрос чат-боту пользователь будет видеть сначала ответы, а затем отдельный «спонсорский» блок с релевантными рекламными предложениями. Пока рекламу тестируют на американских пользователях;

Microsoft и сервис блокировки телефонного спама TrueCaller запустят голосовых клонов. Пользователи TrueCaller смогут создать своего двойника, который будет за них отвечать на рекламные звонки. Перед использованием функции пользователю нужно будет голосом дать согласие на создание клона;

Tencent обновил свою LLM Hunyuan и сделал ее опенсорсной. Разработчики утверждают, что Text-to-Image модель стала на 20% производительнее. Hunyuan интегрирована во многие сервисы Tencent, а генерация изображений работает на той же архитектуре (DiT), что и Text-to-Video у Sora;

Платформа Hugging Face объявила о запуске новой программы ZeroGPU, в рамках которой разработчики получат доступ к бесплатным мощностям для создания своей ИИ-модели. Пользователи смогут совместно с другими разработчиками пользоваться общими GPU через хостинг-сервис Hugging Face Spaces. Hugging Face инвестирует в проект $10 млн. Сейчас ZeroGPU находится на стадии бета-теста.

*Организация, запрещенная на территории РФ
2👍2
🟥 Нейросети обучают на «испорченных» изображениях, чтобы избежать проблем с копирайтом

Исследователи из институтов в Техасе и Калифорнии придумали, как разработчикам нейросетей обезопасить себя от судебных исков при обучении ИИ-моделей, не теряя в качестве.

🫡 Они разработали фреймворк Ambient Diffusion, который позволяет обучать нейросети на изображениях, которые на 90% изменены добавлением шума.

👎 В эксперименте ИИ сначала обучили на датасете из трех тыс. изображений знаменитостей, после чего нейросеть в генерациях часто копировала их внешность.

👍 Затем модель обучили на тех же изображениях, но измененных до неузнаваемости. В этом случае нейросеть все еще генерировала реалистичные лица людей, но они не были похожи на селебрити.

💊 Авторы предлагают использовать Ambient Diffusion не только в случае с защищенными копирайтом фото, иллюстрациями, произведениями искусства. Фреймворк потенциально может пригодиться в случае этических ограничений — например, когда модель нужно натренировать на медицинских снимках, но при этом нельзя допустить, чтобы нейросеть их скопировала.

⌛️ Судя по опубликованному исследованию, фреймворк тестировали на простых изображениях, где изображен единственный предмет. Как он будет справляться с более сложными задачами, пока неясно.

Код Ambient Diffusion доступен на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2
🤔 ИИ-саммарайзер Google советует готовить пиццу с клеем

Недавно представленный компанией саммарайзер поисковой выдачи AI Overview завирусился в интернете, но вряд ли в Google этому рады. Пользователи вовсю делятся вредными советами, которые предлагает AI Overview.

✂️ Самым популярным примером стал ответ на вопрос, что делать, чтобы сыр не «сваливался» с пиццы. AI Overview посоветовал добавить в соус «неядовитого клея». Также сервис заявил, что бег с ножницами в руках может способствовать укреплению иммунной системы.

📆 Не стоит думать, что ИИ обрел разум и таким изощренным способом пытается избавиться от людей. Ars Technica пишет, что AI Overview просто нашел бородатые шутки из интернета и выдал их за проверенную информацию. Например, шутка про клей появилась на Reddit 11 лет назад.

😈 В Google утверждают — случаи появления вредных советов в выдаче крайне редки и относятся к «нетипичным» запросам. Так себе объяснение, но важно отметить, что пользователи стали развлекаться и выдавать за ответы AI Overview придуманные ими советы.

🌉 Например, сервис Google не советовал в качестве лечения депрессии прыжок с моста — это фейк, созданный одним из пользователей.

Тем не менее определенный процент спорных ответов в выдаче определенно есть. А Google уже собрался продавать в AI Overview рекламу. Новый сервис пока доступен только части пользователей в США.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3🤔1
Media is too big
VIEW IN TELEGRAM
👧 D. Lab экранизировала подкаст Детского радио нейросетями

Делимся еще одной нашей экспериментальной работой.

📻 С помощью нейросетей D.Lab (входит в Газпром-Медиа Холдинг) анимировала популярный подкаст Детского радио про приключения Веснушки и Кипятоши — создание персонажей, сцен и анимации на 99% выполнено нейронными сетями.

🫡 Полная версия — здесь.

Другие наши работы.
6🔥4🤔2👍1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
💥 В Suno появилась генерация музыки из любого звука

В версию 3.5 музыкальной нейросети можно добавить любой звук, записанный пользователем, а затем построить вокруг него трек в любом стиле, используя промпт.

🎺 Что-то похожее мы видели у Musicfy, где можно намычать голосом партию на музыкальном инструменте, а на выходе получить готовую мелодию.

🎧 А в последней версии Stable Audio появилась возможность создать трек из загруженного пользователем музыкального семпла (так умеет и прототип от Adobe).

Также в новой версии Suno продолжительность генераций выросла до четырех минут и улучшилось их качество.

💵 Создатели Suno недавно получили от инвесторов еще $125 млн на развитие проекта.
1🔥1🤔1
D. Lab pinned a video
👧➡️👩 В новом Безумном Максе использовали нейросети

Авторы недавно вышедшего в мировой прокат приквела Фуриоса (так зовут главную героиню) использовали нейросети не для задников или постеров.

ИИ помогал сделать визуальный переход от Фуриосы в детстве (когда в роли героини была 14-летняя Алила Браун) ко взрослой Фуриосе (28-летней Ане Тейлор-Джой) менее заметным на экране.

🗿 Тейлор-Джой рассказала, что эффекта похожести двух актрис удалось добиться наложением внешности одной актрисы на другую с помощью нейросетей.

😱 В начале фильма внешность Браун где-то на 35% «состоит» из внешности Тейлор-Джой. К моменту, когда Фуриоса взрослеет, лицо Браун — на 80% лицо Тейлор-Джой.

👍 Таким образом, авторам не пришлось находить обходные пути и второстепенными деталями убеждать зрителя, что на протяжении фильма они видят одну героиню, а не двух разных людей.

🔩 Технических подробностей того, как именно создавался эффект, пока нет. Над спецэффектами в Фуриосе работали студии DNEG и Framestore, а также стартап Metaphysic AI — тот самый, который несколько лет назад завирусился с дипфейками Тома Круза. Именно с помощью технологии Metaphysic будут омолаживать Тома Хэнкса в новом фильме Роберта Земекиса.

🏆 Основатель Metaphysic Эд Ульбрич до этого работал в Digital Domain. Студия занималась спецэффектами в фильме Загадочная история Бенджамина Баттона, где Брэд Питт стареет наоборот. За спецэффекты Баттон получил Оскар.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1🤔1
⚰️ Медиакомпании роют себе могилу, соглашаясь на партнерство с OpenAI

Такое мнение в колонке для The Atlantic высказала Джессика Лессин, главный редактор и сооснователь сайта The Information.

🎯 Лессин считает, что медиакомпании и издательства, которые поспешили лицензировать свой контент OpenAI и другим ИИ-компаниям, действуют против своих интересов.

Соглашаясь на партнерство, пишет Лессин, компании фактически оправдывают воровство — обучение ИИ-моделей на контенте без ведома автора.

😈 Она считает, что СМИ заключают сделку с теми, кто видит одной из своих целей полностью заменить собой новостные издания — заработать за их счет репутацию, а потом увести аудиторию.

☝️ Автор удивляется, что компании не учатся на собственных ошибках. В 2011 году медиамагнат Руперт Мердок анонсировал выход заточенного под iPad новостного приложения Daily, фактически помогая Apple продавать новое устройство. Daily закрылся спустя год и обошелся в $40 млн.

СМИ соглашались бесплатно отдавать свой контент Google, надеясь, что так привлекут новых читателей, но в итоге остались без рекламы.

СМИ подстраивались под алгоритмы и требования Facebook*, чтобы получить трафик с новостного фида приложения соцсети. Этой весной Facebook объявил, что закроет отдельную новостную ленту и больше не будет платить изданиям за контент.

🤖 Лессин полагает, что то же самое будет и с нейросетями. ИИ-компании явно не собираются тратить усилия на создание нового канала для дистрибуции новостей, считает журналистка. Зачем переходить по ссылке и читать новость, когда можно получить ее пересказ в одном абзаце от ИИ.

Журналистка предлагает СМИ проявить выдержку и не бросаться в объятия индустрии, которая сама еще толком не понимает, как будет зарабатывать на своих продуктах.

🤷‍♀️Уже после выхода текста Лессин в The Atlantic стало известно, что издание разрешило использовать свой контент OpenAI.

*Facebook входит в Meta — организацию, запрещенную на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3
🔨 Все больше людей узнает про нейросети, но не пользуется ими

К такому выводу пришли исследователи Института Рейтер по изучению журналистики по результатам онлайн-опроса двух тыс. человек в каждой из шести стран (Аргентина, Дания, США, Великобритания, Франция, Япония).

🧠 Выяснилось, что подавляющее большинство имеет представление о новых ИИ-сервисах или хотя бы слышало о них. При этом остается значительное меньшинство (20–30%), которые ничего не знают о нейросетях.

🏆 ChatGPT — самый популярный бренд среди нейросетей. О сервисе знают около половины респондентов. Остальные сервисы по узнаваемости далеко позади.

📉 Так, про Google Gemini — второй по популярности ИИ — знали лишь около 15% опрошенных. У майкрософтовоского Copilot приблизительно такой же результат. Про Midjourney слышали около 5%, а Stable Diffusion вообще не попал в топ.

🫡 Не очень дела обстоят и с ежедневным использованием нейросетей. Даже ChatGPT каждый день используют в среднем около 5% опрошенных. В Японии сервисом пользуется всего 1%, во Франции — 2% и даже в США показатель составляет только 7%. Значительная часть тех, кто пользовался генеративным ИИ, использовали его один–два раза.

👶 Ожидаемо, чаще всего пользуются нейросетями 18–24-летние (56%). В возрастной группе 55+ таких набралось всего 16%.

💻 24% ответили, что использовали нейросети для получения информации; 28% — пользовались генеративным ИИ для создания контента. Только 5% использовали ИИ, чтобы узнать последние новости.

🔮 При этом больше половины респондентов уверены, что в следующие пять лет ИИ окажет значительное влияние практически на все сферы общественной жизни.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
😊 Tencent вновь анимирует аватары

Фишка V-Express в сбалансированности. Как объясняют авторы, их метод при генерации одинаковое внимание уделяет (или по крайней мере старается) всему спектру данных: исходное изображение, поза запечатленного на изображении, аудио.

👍 Так получается генерация, в которой и анимация, и липсинк, и телодвижения — все как надо.

Получилось ли? Опубликованные разрабами примеры выглядят здорово, но назвать их прорывом, по сравнению с другими «оживлялками» (в том числе и от самих Tencent), не получится.

Код здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Маск анонсировал суперкомпьютер, Instagram* путает ИИ с фотошопом, OpenAI начал обучать новую модель — и другие важные новости за неделю

Илон Маск анонсировал создание суперкомпьютера, который понадобится для обучения и работы следующий версии ИИ Grok. Для этого Маску и его стартапу xAI понадобится 100 тыс. полупроводников, которые будут объединены в единую систему. Начать работать суперкомпьютер должен к осени 2025 года;

OpenAI объявил о старте обучения новой ИИ-модели. Предположительно речь идет о GPT-5, хотя в пресс-релизе название модели не уточняется. Компания предупреждает, что запуск нового произойдет минимум через три месяца. Процесс обучения моделей такой мощности может растянуться и до года, хотя OpenAI могли специально объявить о старте с запозданием;

Одновременно с анонсом начала обучения новой модели, OpenAI рассказали о создании новой команды по безопасности ИИ внутри компании. Команду возглавит глава стартапа Сэм Альтман, а также еще несколько человек из совета директоров компании. Решение выглядит спорным, учитывая, что Альтмана со скандалом недавно выгоняли из OpenAI, в том числе за то, что он якобы игнорировал вопросы безопасности при разработке моделей;

Компания Альтмана также перезапускает подразделение, которое будет заниматься робототехникой. Команда существовала до 2020 года, потом ее распустили. Речи о создании собственного робота пока не идет — сотрудники будут заниматься созданием ПО, которое смогут использовать сторонние разработчики;

Сбер представил обновление своей нейросети для генерации видео Kandinsky Video. Ключевое отличие новой версии — она может генерировать клипы не только по промпту, но и по загруженному изображению. Попробовать обновленную нейросеть Kandinsky Video можно через официальный телеграм-бот;

В браузере Opera появятся новые ИИ-возможности, благодаря интеграции модели Gemini от Google. Gemini обеспечит реалистичные и актуальные голосовые ответы встроенного в Opera ассистента Aria. В конце апреля браузер также научился генерировать изображения, используя гугловскую нейросеть Imagen;

Консалтинговый гигант PwC стал крупнейшим корпоративным клиентом OpenAI. 100 тыс. сотрудников компании получат доступ к ChatGPT. PwC также стал первым официальным реселлером продуктов OpenAI;

Instagram* не отличает нейросети от фотошопа. Пользователи рассказывают, что алгоритмы соцсети принудительно помечают фото, отредактированные фотошопом, как сгенерированные ИИ. Изменения могут быть совсем незначительными, но инста все равно считает их работой нейросетей.

*Instagram входит в Meta — организацию, запрещенную на территории РФ
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
✖️ Генератор анимэ из двух кадров

ToonCrafter дорисует анимацию по двум кадрам.

✏️ Фреймворк также работает с набросками: может сделать анимацию для скетча или раскрасить его и анимировать.

Все это работает на опенсорсной модели DynamiCrafter.

🆕 Способы анимации по ключевым кадрам появились не вчера, но ToonCrafter специально заточен под мультипликацию со всеми ее особенностями.

😛 Авторы признают, что фреймворк работает с глюками: может анимировать часть изображения, которая должна быть статичной; впадает в ступор, если персонаж на кадрах появляется и исчезает.

🫡 Попробовать можно здесь (работает не только с анимэ, серверы часто перегружены).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🎞 Netflix для нейровидео

Прошлым летом мы рассказывали про сервис, который мог запилить кастомный эпизод Южного Парка с помощью нейросетей.

🍿 Спустя год авторы Showrunner AI, стартап The Simulation (до этого назывался Fable), решили играть по-крупному — запустить стриминговый сервис для генеративного видео.

👀 Платформа под тем же названием Showrunner AI позволяет генерировать свои нейросериалы и смотреть, что получилось у других пользователей.

На первых этапах в Showrunner можно будет контролировать диалоги, постановку кадра и персонажей.

🫡 В идеале, по задумке стартапа, пользователь должен иметь возможность сгенерировать сериал, который хочет посмотреть, а не ждать, когда кто-то его снимет.

🔨 Showrunner способен генерировать эпизоды продолжительностью от 2 до 16 минут. Пользователи также могут сгенерировать несколько сцен, а затем объединить их в эпизод сериала.

Сервис работает на нейросети собственного производства, обученной на информации в открытом доступе.

©️ От вопросов про копирайт Fable стараются уйти, но их сервис все также способен как минимум копировать стиль Южного парка и Pixar, а значит, после запуска Showrunner рискуют получить привет от правообладателей.

👉 Здесь можно записаться в очередь на тестирование альфа-версии сервиса и посмотреть несколько тизеров будущих проектов. Авторам самых популярных сериалов в будущем обещают процент от выручки (например, если шоу купит другой стриминг-сервис).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🤔1