D. Lab – Telegram

D. Lab

1.1K subscribers

503 photos

499 videos

1 file

900 links

Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.

Download Telegram

About

Blog

Apps

Platform

1.1K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Meta* выпустила две новые EMU-модели

🆕 EMU — это совсем новая базовая модель от компании Марка Цукерберга для генерации изображений. На основе EMU работают многие генеративные инструменты, а теперь еще и две новых нейросети:

🎞 EMU Video генерирует видео в высоком качестве по текстовой подсказке, исходному изображению или изображению и промпту. EMU Video генерирует 4-секундные клипы в разрешении 512*512.

✂️ EMU Edit позволяет редактировать изображение, используя только промпт. Модель может изменить отдельные детали на изображении, а может заменить фон, изменить цветовую палитру или даже геометрию предметов на иллюстрации. Та часть изображения, которая не указана в промпте, всегда остается нетронутой. Открытым остается вопрос, удобнее ли использовать промпт, чем выделение мышкой области, которую нужно отредактировать.

🫡 Попробовать сейчас можно только EMU Video — но только комбинируя изображения и промпты, подобранные разработчиками.

*Организация, запрещенная на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

555 views11:40

This media is not supported in your browser

VIEW IN TELEGRAM

🎞 Создатели Stable Diffusion представили первую модель для генерации видео

Stable Video Diffusion — это первый для Stability AI выход на поле видеонейронок 🦶.

📹 Image-to-Video модель существует в двух вариантах: для генерации клипов с 14 фреймами и 25 фреймами в разрешении 576*1024.

На тестах, которые проводили сами Stability, пользователи предпочли генерации их нейросети генерациям от Runway и Pika. Кое в чем модель проигрывает конкурентам: генерации могут быть 4 секунды максимум, движение камеры в генерациях фактически отсутствует, модель плохо справляется с лицами людей 😢.

Код модели можно найти на GitHub, чтобы попробовать Video Diffusion в веб-интерфейсе придется встать в очередь.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

589 views15:45

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🎳

К Gaussian Splatting добавили физику объектов

Мы уже упоминали Gaussian Splatting, когда рассказывали про обновление сервиса Spline.

🇨🇳✖️🇺🇸 Умельцы из университетов США и КНР смогли прикрутить к способу рендеринга еще и реалистичную физику. Реалистичной ее называют сами исследователи, но по примерам можно увидеть, что это скорее пробный шар, чем готовая технология.

💧 PhysGaussian адекватно переносит в 3D жидкости, пластичные металлы и сыпучие материалы.

Потестить пока нельзя, код обещают скоро опубликовать на GitHub 🫡.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2

635 views10:55

This media is not supported in your browser

VIEW IN TELEGRAM

🏎 Скоростная text-to-3D модель

⌚️ MetaDreamer (никакого отношения к Meta* не имеет) сгенерирует трехмерный объект по промпту в несколько раз быстрее конкурентов.

🗡 Разработчики объясняют, что такой эффективности удалось добиться благодаря разделению процесса генерации на два этапа: на первом этапе нейросеть работает над геометрией заданного объекта, а на втором — «допиливает» его детали.

Такая оптимизация позволяет модели генерировать 3D за 20 минут. Если вам кажется, что это долго, то у конкурентов, с которыми разработчики MetaDreamer сравнивают свою модель, уходит на это гораздо больше 🏃‍♀️.

Гугловский DreamFusion будет генерировать 3D-объект около часа, а модель ProlificDreamer — семь часов 💤.

Самому убедиться в скорости MetaDreamer не получится, так что придется верить на слово.

*Организация, запрещенная на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4🤯1

586 views14:35

Adobe купил первый генеративный стартап, новые подробности увольнения Сэма Альтмана, Runway запустил круглосуточный канал нейровидео — и другие важные новости за неделю

✅Новые детали про увольнение и возвращение Сэма Альтмана в OpenAI. The Information пишет, что незадолго до увольнения Альтмана, команда разработчиков стартапа объявила о серьезном прорыве в работе алгоритма Q*(Q-Star). Якобы Q* научился решать математические задачи, которые до этого ему не встречались. На фоне этого обострился конфликт внутри компании, связанный с безопасностью разрабатываемых моделей, а вслед за этим Альтмана уволили;

✅ Фотоконкурс World Press Photo Contest изменил правила использования ИИ в конкурсных работах. Во-первых, он запретил выдвигать изображения, сгенерированные ИИ, в каких-либо номинациях. Этому решению предшествовал мини-скандал: организаторы было разрешили участвовать сгенерированным фото в номинации Open Format, но словили столько хейта, что быстро отказались от идеи. Во-вторых, убрать шумы с фотографии с помощью ИИ можно, а вот использовать Generative Fill и его аналоги — нет. Полностью правила можно почитать здесь;

✅ Adobe впервые приобрел генеративный стартап. Им стала индийская компания Rephrase, которая разрабатывает text-to-video модели. Теперь разработки Rephrase станут частью инструментов Adobe. Официально о сделке пока не объявляли;

✅ Runway запустил круглосуточный канал с видео, созданными с использованием генеративных нейросетей. Пользователи могут предложить в эфир свои работы, но при условии, что клип длится дольше 30 секунд;

✅ Nvidia вновь заработала тонну денег благодаря спросу на ИИ. Квартальная выручка компании по сравнению с годом ранее подскочила аж на 206% и составила $18,1 млрд. По собственным прогнозам Nvidia, выручка за финансовый год составит $59 млрд — больше, чем за два предыдущих года вместе взятых;

✅Гугловский чат-бот Bard научился детально анализировать видео на YouTube и пересказывать их пользователю. Теперь не нужно смотреть видео с рецептами блюд — можно просто попросить Bard пересказать его;

✅ Стартап Inflection выходцев из LinkedIn и DeepMind анонсировал новую LLM Inflection-2. Разработчики скромно называют языковую модель лучшей в своем классе и второй по возможностям в мире. На первом — GPT-4. На Inflection-2 скоро будет работать разработанный стартапом чат-бот Pi;

✅ Эминем 29 ноября выступит в Fortnite до ивента Big Bang (это что-то типа нового сезона в игре). Перед концертом фанаты рэпера смогут приобрести тематические скины для игры. В 2020 году на виртуальном концерте Трэвиса Скотта по тому же случаю присутствовало больше 12 млн игроков;

✅ МТС тестирует платформу Рой 9 для обучения нейросетей с использованием мощностей сторонних (например, пользовательских) устройств. На Рой 9 уже обучаются несколько нейросетей. В МТС говорят, что разработка нужна только для внутреннего использования и публичного запуска не планируется;

✅ Сбер выпустил третью версию нейросети Kandinsky, а также представил Kandinsky Video — модель, которая может генерировать клипы длиной до восьми секунд. Video обучали на 300 тыс. пар текст-видео (для сравнения, Gen-2 — на 6,4 млн видео), но разработчики уверяют, что это только начало.

❤4👍1

563 views09:00

⌨️

DeepMind рассказал о новом методе промпт-инжиниринга

Исследователи компании выпустили работу, посвященную методу, который они назвали Step Back-промптинг 🦶.

Его суть заключается в том, что для улучшения точности ответа ИИ-модели, ей стоит сначала задать общий вопрос на тему, а в следующих вопросах конкретизировать задачу ❓.

🏫 Например, пользователь хочет узнать, в какую школу с августа по ноябрь 1954 года ходила американская исследовательница Эстелла Леопольд. Для более точного ответа ИИ лучше сперва спросить о том, в каких вообще учебных заведениях обучалась Леопольд, и только потом конкретизировать временной период.

Это позволяет LLM не «отвлекаться» на ненужные подробности и четко следовать задаче.

🧠 Авторы работы протестировали метод на языковых моделях PaLM-2L и GPT-4. По сравнению с распространенным методом промптинга Chain of Thought (CoT), точность языковых моделей в отдельных случаях выросла на 36%. При использовании CoT LLM просят подробно описать последовательность шагов, которую она делала на пути к правильному ответу.

Наиболее значительные результаты Step Back-метод принес при решении сложных задач. Так, в вопросах химии и физики прирост составит от 7% до 11%. Занятно, что в некоторых примерах PaLM-2L с использованием Step Back-метода оказался почти на 30% точнее GPT-4, с которой такой промптинг не использовался ⬆️.

В DeepMind признают, что их метод не способен заменить все остальные. Например, он бесполезен, если вопрос касается общеизвестных фактов или вопросов, касающихся абстрактных понятий (например, скорости света) 💡.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

594 views07:45

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

MoveAI + MetaHuman =

😮

Мы уже рассказывали про mocap-инструмент Move AI, который при наличии у пользователя айфона создает впечатляющую анимацию. И про MetaHuman тоже упоминали — это приложение, которое позволяет создавать реалистичные аватары на Unreal Engine 😘 .

🤝 Теперь Move AI показывает, на что способна их разработка в связке с MetaHuman. Британский стартап утверждает, что таких результатов, как на видео, можно достичь с одним единственным айфоном (или айпадом).

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

622 views14:45

Хотите, чтобы ИИ заговорил на запрещенные темы? Попросите другой ИИ

🙏

🤖 В американской Leap Laboratories выяснили, что с задачей обойти ограничения на то, какой контент можно генерировать искусственному интеллекту, поможет справиться другой искусственный интеллект.

💬 LLM можно обычным промптом запрограммировать на то, чтобы убеждать другие языковые модели (даже продвинутые типа GPT-4) нарушать правила, установленные разработчиками. Для этого ИИ нужно попросить взять на себя соответствующую «роль». Способ обхода ограничений назвали модуляцией личности (Persona Modulation).

Для эксперимента исследователи задали LLM через другую языковую модель несколько десятков вопросов на табуированные темы — от детского труда до каннибализма. В подавляющем большинстве случаев модели отказались отвечать на вопросы: GPT-4 и Vicuna-33B ответили на 0,23% вопросов, Claude 2 — на 1,4% 🙅.

🔞 Но готовность говорить на запрещенные темы существенно выросла благодаря модуляции личности. Так, GPT-4 согласился отвечать уже на 42,5% вопросов, Vicuna — на 35,92%, а Claude 2 — на 61%.

Некоторые исследователи считают, что большое количество ограничений, наоборот, помогает их обходить. Идея в том, что ограничения можно использовать как ключ в общении с LLM, чтобы заставить модель нарушить их 🔑.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2🤯1😱1

567 viewsedited 13:25

This media is not supported in your browser

VIEW IN TELEGRAM

🎧 Клонирование голоса специально для стримеров

🗣 Voice AI позволяет менять голос прямо в ходе стрима. Можно выбрать голос из встроенной библиотеки, создать его с нуля или на основе собственного голоса. Можно также использовать голоса, которые создали другие пользователи сервиса.

😂 Разработчики говорят, что Voice AI изменяет голос, сохраняя при этом эмоциональную окраску, интонацию и особенности речи. ИИ, используемый в программе, тренировали на 15 млн голосов.

🎮 Voice AI поддерживает World of Warcraft, Counter Strike, Among Us и другие игры. Чтобы коллеги не скучали, можно использовать программу на созвонах в Zoom, Google Meet, Skype и даже Telegram (полный список тут).

✂️ Voice AI работает и как аудиоредактор — можно, например, убрать шумы в записи.

💵 Попробовать можно бесплатно, дальше придется платить от $30 в месяц.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

572 views09:45

This media is not supported in your browser

VIEW IN TELEGRAM

🍾 Pika Labs анонсировали релизную версию своего конкурента GEN-2

Нейросеть для генерации и редактирования видео, которая с августа находилась на публичном тестировании, наконец-то доросла до версии 1.0.

⚙️

Обещают, что по сравнению с предыдущими итерациями Pika получила абсолютно новую ИИ-модель, к которой в комплекте будет идти удобный веб-интерфейс. До этого Pika была доступна через Discord.

Подробностей про технические характеристики и дату выхода модели пока нет. Зато можно записаться в вейтлист 📆.

💵 Pika Labs также похвастались, что получили от сочувствующих $55 млн. Главными инвесторами в бизнес стали Нат Фридман и Дэниел Гросс. Их фонд известен тем, что предлагает стартапам не деньги, а вычислительные мощности в обмен на долю в компании. Летом Фридман и Гросс приобрели более 2,5 тыс. чипов H100 от Nvidia на общую сумму около $100 млн.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

523 views15:35

This media is not supported in your browser

VIEW IN TELEGRAM

Сервис, который восстановит код сайта по скриншоту 🖼

Screenshot-to-Code может по одному изображению странички сгенерировать рабочий HTML-код.

⌨️ Сервис будет сам генерировать новый код, пока финальный результат не будет максимально похож на исходный скриншот. Для генерации кода используется GPT-4 Vision, а для создания похожих иллюстраций — Dall-E.

🔗 Клон можно создать, скопировав URL странички.

О полном копировании говорить (пока) не приходится — большинство элементов, которые делают сайт юзабельным (его бэкенд), Screenshot-to-Code воспроизвести не сможет. Но вспомните, на что были похожи генерации того же Dall-E еще год назад 🍼.

Если Screenshot-to-Code или его аналоги продолжат развиваться, то через какое-то время мы получим инструмент, который сможет создать уже более или менее точную копию ресурса. А этим наверняка заинтересуются мошенники 🚨.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

598 views13:55

Билл Гейтс пообещал трехдневную рабочую неделю, IT-конференцию отменили из-за нейроженщин, Alibaba закрывает квантовую лабораторию — и другие важные новости за неделю

✅ Конференцию разработчиков DevTernity, которая должна была стартовать в Латвии 7 декабря, отменили из-за фейковых женщин-участниц. Выяснилось, что организатор DevTernity Эдуард Сизовс с помощью нейросетей сгенерировал как минимум одну «участницу», и даже завел ей фейковый аккаунт в Instagram*. После скандала другие участники стали отказываться от выступлений на конференции. Некоторые утверждают, что Сизовс «выдумывал» женщин-участниц не первый год. Сам организатор говорит, что сгенерировал участницу, так как настоящая в последний момент отказалась участвовать в DevTernity;

✅ Британский регулятор заблокировал сделку по приобретению Adobe графического редактора Figma за $20 млрд. Управление по защите конкуренции и рынкам (CMA) решило, что покупка может навредить рынку программного обеспечения. У Adobe еще есть время доказать CMA, что сделка не приведет к антимонопольным нарушениям;

✅ Билл Гейтс считает, что благодаря ИИ человечество можете перейти на трехдневную рабочую неделю. Гейтс считает, что искусственный интеллект не заменит человека, а позволит ему «не работать так усердно». «Если в итоге мы получим общество, которое работает всего три дня в неделю, то, наверное, это неплохо», — отметил он;

✅ Власти бразильского города Порту-Алегри издали распоряжение, написанное ChatGPT. Протестировать бдительность своих коллег решил один из членов городского совета. Рамиро Розарио попросил чат-бот написать документ, который бы освобождал жителей города от обязанности платить за замену счетчиков воды, если их украли. Розарио представил распоряжение 35 своим коллегам без единой правки и не упоминая, что документ сгенерировала нейросеть. Распоряжение приняли единогласно;

✅ Alibaba закроет квантовую лабораторию, запущенную в 2017 году, а все оборудование передаст Чжэцзянскому университету в Китае. Лабораторию когда-то открывали с большой помпой, в ней компания тестировала самые передовые технологии (от метавселенных до роботов). Причиной закрытия стала реструктуризация, в рамках которой Alibaba хочет пустить основные ресурсы на ИИ;

✅ App Store и Google Play проигнорировали приложение ChatGPT в своей подборке лучших программ за год, обратил внимание TechCrunch. И это при том, что приложение в рекордные сроки набрало 100 млн пользователей. Журналисты предполагают, что это было осознанное решение. Apple упомянул ИИ в целом, назвав его трендом года;

✅ Руководство Stability AI — разработчика Stable Diffusion — задумалось о продаже бизнеса. Варианты продажи обсуждались из-за давления инвесторов, которые опасаются за финансовое здоровье стартапа. У инвесторов также есть вопросы к CEO компании Эмаду Мостаку, при котором стартап покинули несколько ключевых сотрудников. Среди возможных покупателей называют разработчиков ИИ-платформы Jasper и разработчика ПО Cohere;

✅Владелец TikTok, компания ByteDance, фактически откажется от игрового направления, сократив несколько сотен рабочих мест в подразделении Nuverse. Все невыпущенные проекты, над которыми работала команда, свернут. Byte Dance вложил в игровое направление миллиарды долларов, но так и не смог составить серьезной конкуренции Tencent. Самым популярным тайтлом Nuverse стала карточная игра Marvel Snap.

*Instagram входит в Meta — организацию, запрещенную на территории РФ

🤯3👍1

573 views09:00

This media is not supported in your browser

VIEW IN TELEGRAM

Платформа, которая обещает работающие игры по одному промпту ⌨️ 🎮

Bitmagic по текстовой подсказке создает концепт, геймплей, историю и визуальный стиль игры.

Звучит как сказка, но, во-первых, сгенерированные игры рассчитаны всего на 15–30 минут геймплея, а во-вторых, журналист Venture Beat видел все своими глазами и утверждает, что платформа действительно работает 💪.

Правда, пока не очень понятно, кто целевая аудитория проекта: для серьезных разработчиков Bitmagic слишком проста (если не сказать примитивна), а для энтузиастов в ней пока слишком мало возможностей (новые инструменты обещают добавлять в апдейтах) ⏳.

Сами создатели платформы рассчитывают на появление комьюнити вокруг неё, где найдутся будущие звезды игрового девелопмента ⭐️.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4🤔1

532 views14:05

🔋 Создание одного генеративного изображения = зарядить телефон до 100%

Такие подсчеты приводят в своей работе исследователи из Hugging Face и американского университета Карнеги Меллон.

👣 Исследователи проводили эксперимент, чтобы подсчитать, какой углеродный след оставляет нейросеть при непосредственном использовании. Эксперимент проводили на 88 моделях, которые выполняли 10 самых популярных задач: генерация изображений и текста, пересказ текста, классификация изображений, распознавание объекта и др.

Каждую модель прогнали через тысячу промптов, а затем с помощью утилиты Code Carbon, созданной специально для исследования, подсчитали энергозатраты на каждую задачу 💡.

🚚 Выяснилось, что, например, создание тысячи изображений с помощью Stable Diffusion XL, эквивалентно поездке длиной 6,6 км на автомобиле с ДВС.

⌨️ При этом генерация текста с помощью нейросети оказалась гораздо менее энергозатратным занятием: создание тысячи текстов эквивалентно зарядке телефона всего до 16%.

💸 Новое исследование лишний раз подтверждает то, что уже и так понятно: современные ИИ-модели — очень дорогая технология, как с точки зрения энергопотребления, так и с точки зрения денежных инвестиций. И совсем не «зеленая».

Мы уже писали, что день работы ChatGPT обходится OpenAI в $1 млн; Microsoft хочет использовать для ИИ ядерную энергию, чтобы хоть как-то вписаться в собственные экологические стандарты; а ИИ-индустрия в целом уже к 2027 году может сравняться по энергопотреблению с целыми странами.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔2⚡1👎1

545 views07:45

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Видео по часовой стрелке: Animate Anyone, Magic Animate, GAIA

💃

Microsoft, Byte Dance и Alibaba показали новые модели для анимации изображений

❤️

Animate Anyone от Alibaba благодаря «скелету» (или pose guider, как его называют сами разработчики) способен воспроизвести достаточно сложную анимацию с минимумом глюков: там, где генерации других моделей трясутся и мерцают, Animate Anyone крепко держит анимацию в рамках приличий — если, конечно, сильно не присматриваться. Правда, судить о качестве модели можно только по клипу — демо разработчики пока только обещают.

❤️

Magic Animate, как и Animate Anyone, обещает высокую консистентность и детализированность анимации, но, в отличие от конкурента от Alibaba, модель Byte Dance можно потрогать руками: код доступен на GitHub, а на HuggingFace есть демо, в котором можно поиграться с готовым набором изображений и вариантов анимации. Особо впечатлительные называют Magic Animate — ИИ-релизом месяца.

❤️ Ну и, наконец, Microsoft показали своего конкурента D-ID. GAIA может создавать анимацию на основе одного фото, при этом аватар можно озвучить, добавив голосовой сэмпл. Аватар не выглядит бревном, а довольно реалистично держит себя «в кадре». Код для модели — Coming Soon.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍1🤯1

648 views15:35