эйай ньюз

Принёс вам подборку ресурсов о внутренностях ML фреймворков

Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).

Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.

А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.

Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.

Желаю вам приятного начала рабочей недели!

#ликбез
@ai_newz

23.2K viewsedited 13:12

эйай ньюз

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

Контролнеты для FLUX.1 поражают

Тут использовали Depth Controlnet для генерации фреймов и Luma для синтеза переходов между генерациями.

@ai_newz

23.3K viewsedited 20:13

эйай ньюз

0:45

This media is not supported in your browser

Нашел прикольное сравнение Runway и Luma. Автор прогнал одни и те же картинки через обе модели и сделал два одинаковых трейлера.

В связи с этим решил провести свое небольшое сравнение трёх конкурентов в разных категориях:

1) Следование промпту: сможет ли модель нарезать апельсин?
2) Реалистичный портрет "говорящая голова".
3) Продакт-фото — ещё один очень популярный юзкейс.
4) Абстрактная динамичная сцена с китом, который выпрыгивает из дюны.

Все видео генерил три раза (что, вообще говоря, маловато) и использовал один и тот же промпт из этой GPT.

Результаты выше.

Скажу честно, я топил за Luma, но после того, как Runway Gen-3 расправился с этим апельсином, мое мнение резко переменилось. Luma разрезала апельсин только после добавления endframe, хотя Gen-3 справился с первой попытки.

Прайсинг:
Здесь сложно судить. Думаю, нет смысла считать стоимость токена или секунды генерации. Все равно 2/3 генераций уйдут на свалку. НО! У Runway есть анлим за 95 баксов, и если вы вот реально угарели по этой теме, то Runway ноубрейнер чойс. Luma за $100 дает 480 генераций, что кажется много, но по сути из 30 минут сгенерированного видео юзабельными будут минут 6-10 от силы, чего хватит на пару-тройку клипов. А еще можно скинуться с корешами на акк Runway, а для отдельных задач юзать фри токены лума (пока фичу со start & end keyframes не завезли в gen-3), но я вам об этом не говорил🤭.

Выводы:
Runway дает более киношную и чистую картинку, но меньше движений. Хотя, это решается грамотным промптингом и черрипиком. Здесь нужно добавить, что я тестировал Turbo версию, так как на нее есть бесплатные кредиты😁. Luma, судя по первому видео, дает больше движений, но и больше артефактов. В целом, тот же черрипик должен решить проблему, а четкость можно добавить в посте и на этапе апскейла, который все равно требуется для всех трех моделей.

А Kling... ну что Kling... Он в целом менее популярный из трёх, хотя, кажется, имеет наилучший мувмент в плане реалистичности и фиделити. Однако, картинка еще более мутная и менее киношная. Как-то ни народ, ни я его не взлюбили. А еще в бесплатной версии ну оочень долгая очередь, как в первые дни релиза Luma (ждал ночь).

Пока мой выбор за Runway GEN-3. Если набить руку и не жалеть анлим, то получится выжать динамичную и красивую картинку. Это как MidJourney, ради красоты стоит потерпеть.

@ai_newz

20.7K views17:12

эйай ньюз

А вот и первый IP-Adapter для FLUX.1 [dev] подъехал

IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.

Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.

Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.

Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.

Это только первая версия адаптера, поэтому может быть еще сыровата.

Веса на HF
Воркфлоу для Comfy UI

@ai_newz

25.4K views09:54

эйай ньюз

Scaling Diffusion Transformers to 16 B parameters with MoE

Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет.

Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда).

В чем профит использовать MoE?
- По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знания по отдельным экспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях.
- Выигрыша по памяти MoE в этом случае не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происходит на уровне токенов.
- Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэкономить и память. Но тут так не делают.

Тренят модель на:
– На 1.3M картинках из Imagenet и на синтетике.
– Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтранули клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало.

Результаты:
Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель.

В репе есть код тренировки (на DeepSpeed). Недавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание).

Вот веса моделей:
- B/2 с 8-ю экспертам (800 M, 12 блоков)
- G/2 с 16-ю экспертами (16.5 B, 40 блоков) - не выложили ха-ха.

@ai_newz

22.9K views15:02

эйай ньюз

1:55

This media is not supported in your browser

VIEW IN TELEGRAM

Midjourney наконец-то начали выбираться из Discord!

В честь релиза вебверсии для всех пользователей врубили бесплатные триалы - дают бесплатно сгенерить 25 картинок. Дальше по подписке - они стоят от $10 до $120 за месяц или от $96 до $1152 за год.

В веб интерфейсе на удивление много фич - кроме стандартной галереи генераций и интерфейса промптинга там есть текстовые и голосовые чаты, текстовые связаны с дискордом. В придачу есть специальный интерфейс для ранкинга изображений в обмен на ускоренную генерацию картинок (очень умный способ получить данные для тюна практически бесплатно).

Заметьте как один из лучших генераторов изображений в мире больше двух лет был доступен лишь в дискорде. Фокус был на основном продукте - модели генерации, на вторичные фичи на распылялись. В том числе из-за этого
компания не просто профитная, она ни разу не привлекала денег, остальным стартапам есть чему у них поучиться.

https://www.midjourney.com/

@ai_newz

23.6K viewsedited 19:04

эйай ньюз

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

Ideogram 2.0

Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации, которые я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц.

Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру.

Вместе с новой моделькой релизнули приложение на iOS и API. API по стоимости примерно на уровне FLUX.

Технических деталей, увы, нет. Судя по поведению компании, они вряд ли будут.

Попробовать

@ai_newz

21.9K viewsedited 12:36

Я вернулся из поездки в Варшаву! Город очень живой и активный, особенно сильно это ощущается на контрасте с размеренным Цюрихом. И, конечно, огромное русскоговорящее комьюнити технарей.

Я провел целых две тусовки с подписчиками – одной оказалось мало, и меня попросили организовать еще одну. Сразу скажу, что обе прошли просто шикарно! Спасибо всем, кто пришел – вы все очень крутые!

Для первой забронировал целиком беларусский бар "Банки-Бутылки" (он же раньше был в Минске на Зыбицкой). Я приятно офигел от того, что на тусу пришло более 50 человек. Это пока рекордная по размеру тусовка "эйай ньюз". Получилось прям круто! Тут было, как мне кажется, три составляющие успеха:
➡️ Много интересных людей. Кроме ребят, кто работает в AI и ML (из FAANG-а, фирм поменьше и стартапов), были артисты, фотографы и маркетологи, которые активно используют AI в своей работе.
➡️ Вкусные коктейли, в том числе и безалкогольные (респект барменам!).
➡️ Хорошая музыка и обстановка. Так как место было зарезервировано чисто под нас, была очень уютная и непринужденная атмосфера.
➡️ Для самых стойких мы организовали афтерпати на шикарной террасе с видом на реку (кудос моему другу Андрею!). Разошлись в 3 часа ночи только 🎵.

Вторую тусу поменьше на 15 человек провели через два дня после первой на берегу реки Вислы за комфортабельными деревянными столами, где можно было приносить свои напитки. Тут было более спокойно, но не менее кайфово, смогли хорошо пообщаться и выпить пива с ребятами, наблюдая красивые виды вокруг.

Кроме того, меня пригласили на локальный Data Breakfast, который ребята проводили в Гугле. У Гугла оказалось прям крупное представительство в Варшаве, и есть даже команды из Waymo (где пилят self-driving).

Еще позвали в гости в офис Pinterest, где я познакомился с командой, вышедшей из белорусского стартапа Vochi, который был куплен Пинтерестом в 2021. Ну, и конечно, поработал из нашего Метовского офиса с классным видом на центр Варшавы.

Поездку в Варшаву объявляю очень удачной, приеду еще раз как-нибудь!

#personal
@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

22.2K views14:29

эйай ньюз

Я раньше вам уже рассказывал, что у нас в Мете есть возможность коллаборировать с университетами и супервайзить научные работы студентов. Так вот я этим и продолжаю заниматься.

В этом году я супервайзил еще одну магистерскую работу в ETH Zurich. Это работет так, что у студента формально есть супервайзер и в ETH и в Мете. Но так как это коллаб, то тему работы задавали мы из Меты (я и еще одна моя коллега).

Мы еженедельно встречались и обсуждали прогрес по проекту, я накидывал идеи и помогал решать проблемы если были блокеры.

За основу проекта была взята моя статья Avatars Grow Legs, но на этот раз мы хотели сделать что-то с анимацией лиц.

Около месяца назад моя студентка-магистрантка добила этот проект и успешно защитила свою Магистерскую работу в ETH Zurich!

Работа называется "OccluFaceDiff: Multimodal-Conditioned Occlusion-Aware 3D Facial Animation Using Diffusion". Если коротко, то мы научили (я говорю мы, но на самом деле всю работу, конечно, сделала студентка) мультимодальную диффузионную модель восстанавливать 3D shape лица человека по видео и аудио, если оно есть. То есть на вход видеоряд - на выходе последовательность 3D шейпов лица, соответствующая каждому кадру. Фишка работы была в том, чтобы восстанавливать все лицо даже если часть его закрыта чем-то (например маской или рукой). Если часть лица не видна, но есть аудио, то по звуку и эмоциям можно предсказать, как выглядело лицо человека. Самое сложное тут это мимика.

Ну, а после защиты счастливая студентка уехала на стажировку в Amazon в Люксембург :) Как вернется, возможно, будем готовить статью.

Так что, если вы толковый студент (желательно PhD) и есть амбиции и желание написать со мной статью, то можете написать в лс или в комментах. Возможно, сможем поработать вместе.

#personal
@ai_newz

21.6K views20:30

эйай ньюз

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*.

Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначала не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов.

Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год 👍

С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁

* Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него.

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

50.7K viewsedited 16:39

эйай ньюз

Нейродайджест за неделю (#32)

Генеративные модели
- FLUX ControlNet смешали с Luma. Вышел прикольный морфинг.
- GEN-3 vs Luma vs Kling. Какую же подписку взять? Проводим тесты и выбираем модель себе по душе.
- Первый IP-Adapter для FLUX.1. Вышло сыровато, но зато первые!
- MidJourney вернули триал! И окончательно переехали в веб. Теперь сайт имеет полноценный набор инструментов и можно пилить новые фишки, хотя Discord все еще жив!
- Ideogram 2.0. Новая SOTA чуть ли не лучше FLUX, но закрытая и коммерческая, парни явно хотят отжать часть рынка у MidJourney.

Пейперы
- Скейлим диффьюжн трансформеры с помощью MoE. Креативный способ набрать больше параметров почти бесплатно.
- Мои коллабы со студентами. Делюсь плодами студентки, которая продолжает мой старый проект Avatars Grow Legs, но теперь с лицами.

Другое
- Сходка в Варшаве. Было мега круто, спасибо всем, кто пришел и кто читает канал <3
- Подборка ML фреймворков. Разбираемся с внутрянкой на практике. Все мы любим потыкаться в чужой код и посмотреть, что выйдет.
- ЛЛМ Безоса Amazon Q переписала старое репо и сэкономила 4500 лет работы и $260M в год. Может, у джунов все-таки есть шанс пройти собес под прикрытием Copilot'а?

———

Так-с, я там пропустил пару недель, так что вот пара самых горячих новостей за недели 29 и 30. Пропустили юбилей = (

- ICML - Best Paper Awards. Эти статьи точно стоит почитать на досуге. Прям интересно.
- Black Forest Lab. Это же те самые авторы FLUX и спасители опенсорса, вперед мужики!
- Grok 2 вырвался в топ. Теперь XAI – серьезная AI компания. Их модельку sus-column-r на арене нарекли прорывом от OpenAI. Есть о чем задуматься.
- Скидки на LLM. Провайдеры мощно режут цены на свои API. Оптимизированные минимодельки, да еще и с кешем теперь почти ничего не стоят.
- Полный курс по LLM. Бесплатно и от топовых практиков в индустрии, если вливаться в NLP, то только так.
- SAM 2: Segment Anything in Images and Videos. Кто-то там все еще не может удалить задний фон, а тут ребята сегментируют элементы не просто на картинках, а на видео.
- Болтовня Хуанга и Цукерберга. Пацаны собрались нормально поболтать за ~~жизнь~~ работу. Мистер кожанка даже похвалил мой Imagine Flash, приятно :)

> Читать дайджест #31

#дайджест
@ai_newz

21.8K viewsedited 18:53

About

Blog

Apps

Platform