Qwen 2 - Math и Audio
Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.
Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.
Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.
Веса Math
Веса Audio
@ai_newz
Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.
Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.
Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.
Веса Math
Веса Audio
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Через пять минут начнётся Made By Google
Презентацию продвигали как анонс новых телефонов Pixel, но они уже тизерят Gemini Live - мб понимающую прямую трансляцию видео и аудио. Может и Gemini 2 завезут.
Интересно что учудит на этот раз OpenAI, они часто привязывают свои релизы к ивентам гугла.
https://www.youtube.com/watch?v=jvyyfvf0gjI
@ai_newz
Презентацию продвигали как анонс новых телефонов Pixel, но они уже тизерят Gemini Live - мб понимающую прямую трансляцию видео и аудио. Может и Gemini 2 завезут.
Интересно что учудит на этот раз OpenAI, они часто привязывают свои релизы к ивентам гугла.
https://www.youtube.com/watch?v=jvyyfvf0gjI
@ai_newz
Grok 2 - XAI Маска теперь на фронтире
Новая модель от XAI на уровне Claude 3.5 и GPT-4. Последнюю неделю её можно было потрогать на арене под именем sus-column-r.
Grok 2 уже доступен пользователям X Premium, вместе с генератором изображений на основе FLUX.1 от моих корешей из Black Forest Labs.
Модель пока поддерживает только текст, но мультимодальность обещают уже скоро. API будет доступен через несколько недель. Всё по EST (Elon Standard Time), так что может задержаться. Напоминаю что Grok 1.5 так и не релизнули.
А Grok 3 уже тренируется на новом кластере XAI, ждём.
Блогпост
@ai_newz
Новая модель от XAI на уровне Claude 3.5 и GPT-4. Последнюю неделю её можно было потрогать на арене под именем sus-column-r.
Grok 2 уже доступен пользователям X Premium, вместе с генератором изображений на основе FLUX.1 от моих корешей из Black Forest Labs.
Модель пока поддерживает только текст, но мультимодальность обещают уже скоро. API будет доступен через несколько недель. Всё по EST (Elon Standard Time), так что может задержаться. Напоминаю что Grok 1.5 так и не релизнули.
А Grok 3 уже тренируется на новом кластере XAI, ждём.
Блогпост
@ai_newz
🔥 Anthropic запилили Context Caching! 🔥
Называется она в их исполнении prompt caching. Запись токенов в кэш платная - цена кэшируемых токенов на 25% выше.
Основной подводный камень - хранятся кэшированные токены всего пять минут после последнего использования, но цена за кэшированный токен в десять раз лучше. Предложение явно хуже чем у DeepSeek, но вполне конкурентоспособно с Google (зависит от юзкейса).
Почитать что такое Context Caching можно тут.
Документация
@ai_newz
Называется она в их исполнении prompt caching. Запись токенов в кэш платная - цена кэшируемых токенов на 25% выше.
Основной подводный камень - хранятся кэшированные токены всего пять минут после последнего использования, но цена за кэшированный токен в десять раз лучше. Предложение явно хуже чем у DeepSeek, но вполне конкурентоспособно с Google (зависит от юзкейса).
Почитать что такое Context Caching можно тут.
Документация
@ai_newz
Пока у ChatGPT лаги, давайте поговорим о ненадёжных "сливах"
Всю прошлую неделю у меня комментарии, как и твиттер, ломились от 🍓🍓🍓. Один твиттер аккаунт наделал кучу предсказаний и ему поверило какое-то безумное количество людей. К примеру, на удалённой сейчас (вместе с аккаунтом) гитхаб репе с ридми и одним питон файлом было 1.5к звёзд.
Я к этому изначально относился скептически, а сейчас удостоверился что весь хайп с 🍓 - лажа. Давайте разберём почему, на примере двух конкретных предсказаний автора хайпа:
➖ sus-column-r на арене - это модель от OpenAI на основе новых прорывов. В итоге оказалось, что это просто Grok-2 от XAI.
➖ Релиз gpt-4o-large-0813 13 августа в 10 утра по Калифорнии. Тут всё просто. В 10 утра по Калифорнии была только презентация гугла, на которой я благополучно заснул. Так что обзора анонсов с презентации нет (как и интересных анонсов по тематике канала).
Напоследок хочу попросить не верить всяким рандомным грифтерам из интернета. Из относительно качественных аккаунтов (про слухи и слив) можете подписаться на Jimmy Apples, хотя там в последнее время был контент о том, как он проходил Red Dead Redemption 2. В остальном лучше читайте реальных ресерчеров, а не хайпожеров.
@ai_newz
Всю прошлую неделю у меня комментарии, как и твиттер, ломились от 🍓🍓🍓. Один твиттер аккаунт наделал кучу предсказаний и ему поверило какое-то безумное количество людей. К примеру, на удалённой сейчас (вместе с аккаунтом) гитхаб репе с ридми и одним питон файлом было 1.5к звёзд.
Я к этому изначально относился скептически, а сейчас удостоверился что весь хайп с 🍓 - лажа. Давайте разберём почему, на примере двух конкретных предсказаний автора хайпа:
➖ sus-column-r на арене - это модель от OpenAI на основе новых прорывов. В итоге оказалось, что это просто Grok-2 от XAI.
➖ Релиз gpt-4o-large-0813 13 августа в 10 утра по Калифорнии. Тут всё просто. В 10 утра по Калифорнии была только презентация гугла, на которой я благополучно заснул. Так что обзора анонсов с презентации нет (как и интересных анонсов по тематике канала).
Напоследок хочу попросить не верить всяким рандомным грифтерам из интернета. Из относительно качественных аккаунтов (про слухи и слив) можете подписаться на Jimmy Apples, хотя там в последнее время был контент о том, как он проходил Red Dead Redemption 2. В остальном лучше читайте реальных ресерчеров, а не хайпожеров.
@ai_newz
В этом году впервые прошла Международная олимпиада по искусственному интеллекту для школьников (IOAI) в Болгарии с 9 по 14 августа. И вот что произошло:
- Команда из России (школа Летово) одержала победу в общем зачете! Они заработали золото за решение задач по машинному обучению и компьютерному зрению и серебро за задачи по обработке естественного языка. По сумме баллов за оба конкурса ребята обошли конкурентов из 39 стран, включая Китай, Японию, Канаду, Швецию, Нидерланды, США. Команда вернулась домой сегодня ночью и их огого как встретили в аэропорту!
В команду победителей вошли Никита Курлаев, Андрей Грицаев, Андрей Громыко и Анастасия Гайнуллина. К олимпиаде детей готовили преподаватели Центрального Университета, основанного при поддержке т-банка и других крупных компаний.
Необычный формат олимпиады (не похоже на IMO или IOI): Задачи были в стиле Kaggle, но с ограничениями по времени и ресурсам. Это уменьшило роль брутфорса и акцентировало внимание на знаниях и находчивости участников.
Задачи:
- В ML задаче требовалось создать лучшие фичи для небольшого DecisionTree.
- В NLP задаче — зафайнтюнить mBERT для нового языка с зашифрованными текстами.
- В CV задаче — заставить miniSD всегда дорисовывать гидрант, если на картинке есть корова.
Финальный этап: Длился 8 часов, команда из 4 человек решала 3 задачи, используя только два ноутбука (я так понимаю, с GPU).
На сайте олимпиады, кстати, собрано много полезных ресурсов для подготовки, многие из которых хорошо подойдут всем, кто вкатывается в ML по работе: https://ioai-official.org/how-to-prepare/
@ai_newz
- Команда из России (школа Летово) одержала победу в общем зачете! Они заработали золото за решение задач по машинному обучению и компьютерному зрению и серебро за задачи по обработке естественного языка. По сумме баллов за оба конкурса ребята обошли конкурентов из 39 стран, включая Китай, Японию, Канаду, Швецию, Нидерланды, США. Команда вернулась домой сегодня ночью и их огого как встретили в аэропорту!
В команду победителей вошли Никита Курлаев, Андрей Грицаев, Андрей Громыко и Анастасия Гайнуллина. К олимпиаде детей готовили преподаватели Центрального Университета, основанного при поддержке т-банка и других крупных компаний.
Необычный формат олимпиады (не похоже на IMO или IOI): Задачи были в стиле Kaggle, но с ограничениями по времени и ресурсам. Это уменьшило роль брутфорса и акцентировало внимание на знаниях и находчивости участников.
Задачи:
- В ML задаче требовалось создать лучшие фичи для небольшого DecisionTree.
- В NLP задаче — зафайнтюнить mBERT для нового языка с зашифрованными текстами.
- В CV задаче — заставить miniSD всегда дорисовывать гидрант, если на картинке есть корова.
Финальный этап: Длился 8 часов, команда из 4 человек решала 3 задачи, используя только два ноутбука (я так понимаю, с GPU).
На сайте олимпиады, кстати, собрано много полезных ресурсов для подготовки, многие из которых хорошо подойдут всем, кто вкатывается в ML по работе: https://ioai-official.org/how-to-prepare/
@ai_newz
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.
Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.
Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.
Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.
И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.
Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.
Пейпер
Код
@ai_newz
В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.
Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.
Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.
Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.
И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.
Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.
Пейпер
Код
@ai_newz
Нейродайджест за неделю (#31)
Три недели прошло с последнего дайджеста, возвращаюсь к формату
LLM
- Обновления Qwen 2 - один тюн теперь SOTA по математике, а другой понимает аудио
- ReBased – новая архитектура линейного трансформера. Это лучший, на данный момент, вариант Linear Transformer, исправляющий ошибки прошлых архитектур.
- Grok 2 - ещё одна модель уровня GPT-4. В пантеон OpenAI, Anthropic, Google и Meta добавился XAI.
- Context Caching для Claude - любимая фича для удешевления моделей наконец-то заехала в клода, но кэш живёт лишь пять минут, что ограничивает юзкейсы.
Общие новости
- Презентация гугла - показали полуработающие демо Gemini, новые телефоны Pixel и кучу фич для их камер. Было скучно, админ заснул.
- Команда из РФ победила на международной олимпиаде по AI - ребята молодцы, а задачки оттуда это хорошая практика даже для опытных спецов.
Аналитика
- Почему не стоит верить сливам - разбор одного популярного в последнее время "инсайдера", который ни разу не оказался прав.
Жизнь
- Поработал из офиса Meta в Варшаве - очень красиво, согласитесь. Организовал две тусы для подписчиков (про них ещё напишу). Да и в целом в Варшаве очень понравилось!
> Читать дайджест #28
#дайджест
@ai_newz
Три недели прошло с последнего дайджеста, возвращаюсь к формату
LLM
- Обновления Qwen 2 - один тюн теперь SOTA по математике, а другой понимает аудио
- ReBased – новая архитектура линейного трансформера. Это лучший, на данный момент, вариант Linear Transformer, исправляющий ошибки прошлых архитектур.
- Grok 2 - ещё одна модель уровня GPT-4. В пантеон OpenAI, Anthropic, Google и Meta добавился XAI.
- Context Caching для Claude - любимая фича для удешевления моделей наконец-то заехала в клода, но кэш живёт лишь пять минут, что ограничивает юзкейсы.
Общие новости
- Презентация гугла - показали полуработающие демо Gemini, новые телефоны Pixel и кучу фич для их камер. Было скучно, админ заснул.
- Команда из РФ победила на международной олимпиаде по AI - ребята молодцы, а задачки оттуда это хорошая практика даже для опытных спецов.
Аналитика
- Почему не стоит верить сливам - разбор одного популярного в последнее время "инсайдера", который ни разу не оказался прав.
Жизнь
- Поработал из офиса Meta в Варшаве - очень красиво, согласитесь. Организовал две тусы для подписчиков (про них ещё напишу). Да и в целом в Варшаве очень понравилось!
> Читать дайджест #28
#дайджест
@ai_newz
Принёс вам подборку ресурсов о внутренностях ML фреймворков
Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).
Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.
А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.
Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.
Желаю вам приятного начала рабочей недели!
#ликбез
@ai_newz
Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).
Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.
А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.
Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.
Желаю вам приятного начала рабочей недели!
#ликбез
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Контролнеты для FLUX.1 поражают
Тут использовали Depth Controlnet для генерации фреймов и Luma для синтеза переходов между генерациями.
@ai_newz
Тут использовали Depth Controlnet для генерации фреймов и Luma для синтеза переходов между генерациями.
@ai_newz
Нашел прикольное сравнение Runway и Luma. Автор прогнал одни и те же картинки через обе модели и сделал два одинаковых трейлера.
В связи с этим решил провести свое небольшое сравнение трёх конкурентов в разных категориях:
1) Следование промпту: сможет ли модель нарезать апельсин?
2) Реалистичный портрет "говорящая голова".
3) Продакт-фото — ещё один очень популярный юзкейс.
4) Абстрактная динамичная сцена с китом, который выпрыгивает из дюны.
Все видео генерил три раза (что, вообще говоря, маловато) и использовал один и тот же промпт из этой GPT.
Результаты выше.
Скажу честно, я топил за Luma, но после того, как Runway Gen-3 расправился с этим апельсином, мое мнение резко переменилось. Luma разрезала апельсин только после добавления endframe, хотя Gen-3 справился с первой попытки.
Прайсинг:
Здесь сложно судить. Думаю, нет смысла считать стоимость токена или секунды генерации. Все равно 2/3 генераций уйдут на свалку. НО! У Runway есть анлим за 95 баксов, и если вы вот реально угарели по этой теме, то Runway ноубрейнер чойс. Luma за $100 дает 480 генераций, что кажется много, но по сути из 30 минут сгенерированного видео юзабельными будут минут 6-10 от силы, чего хватит на пару-тройку клипов.А еще можно скинуться с корешами на акк Runway, а для отдельных задач юзать фри токены лума (пока фичу со start & end keyframes не завезли в gen-3), но я вам об этом не говорил🤭.
Выводы:
Runway дает более киношную и чистую картинку, но меньше движений. Хотя, это решается грамотным промптингом и черрипиком. Здесь нужно добавить, что я тестировал Turbo версию, так как на нее есть бесплатные кредиты😁. Luma, судя по первому видео, дает больше движений, но и больше артефактов. В целом, тот же черрипик должен решить проблему, а четкость можно добавить в посте и на этапе апскейла, который все равно требуется для всех трех моделей.
А Kling... ну что Kling... Он в целом менее популярный из трёх, хотя, кажется, имеет наилучший мувмент в плане реалистичности и фиделити. Однако, картинка еще более мутная и менее киношная. Как-то ни народ, ни я его не взлюбили. А еще в бесплатной версии ну оочень долгая очередь, как в первые дни релиза Luma (ждал ночь).
Пока мой выбор за Runway GEN-3. Если набить руку и не жалеть анлим, то получится выжать динамичную и красивую картинку. Это как MidJourney, ради красоты стоит потерпеть.
@ai_newz
В связи с этим решил провести свое небольшое сравнение трёх конкурентов в разных категориях:
1) Следование промпту: сможет ли модель нарезать апельсин?
2) Реалистичный портрет "говорящая голова".
3) Продакт-фото — ещё один очень популярный юзкейс.
4) Абстрактная динамичная сцена с китом, который выпрыгивает из дюны.
Все видео генерил три раза (что, вообще говоря, маловато) и использовал один и тот же промпт из этой GPT.
Результаты выше.
Скажу честно, я топил за Luma, но после того, как Runway Gen-3 расправился с этим апельсином, мое мнение резко переменилось. Luma разрезала апельсин только после добавления endframe, хотя Gen-3 справился с первой попытки.
Прайсинг:
Здесь сложно судить. Думаю, нет смысла считать стоимость токена или секунды генерации. Все равно 2/3 генераций уйдут на свалку. НО! У Runway есть анлим за 95 баксов, и если вы вот реально угарели по этой теме, то Runway ноубрейнер чойс. Luma за $100 дает 480 генераций, что кажется много, но по сути из 30 минут сгенерированного видео юзабельными будут минут 6-10 от силы, чего хватит на пару-тройку клипов.
Выводы:
Runway дает более киношную и чистую картинку, но меньше движений. Хотя, это решается грамотным промптингом и черрипиком. Здесь нужно добавить, что я тестировал Turbo версию, так как на нее есть бесплатные кредиты😁. Luma, судя по первому видео, дает больше движений, но и больше артефактов. В целом, тот же черрипик должен решить проблему, а четкость можно добавить в посте и на этапе апскейла, который все равно требуется для всех трех моделей.
А Kling... ну что Kling... Он в целом менее популярный из трёх, хотя, кажется, имеет наилучший мувмент в плане реалистичности и фиделити. Однако, картинка еще более мутная и менее киношная. Как-то ни народ, ни я его не взлюбили. А еще в бесплатной версии ну оочень долгая очередь, как в первые дни релиза Luma (ждал ночь).
Пока мой выбор за Runway GEN-3. Если набить руку и не жалеть анлим, то получится выжать динамичную и красивую картинку. Это как MidJourney, ради красоты стоит потерпеть.
@ai_newz
А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
Scaling Diffusion Transformers to 16 B parameters with MoE
Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет.
Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда).
В чем профит использовать MoE?
- По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знания по отдельным экспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях.
- Выигрыша по памяти MoE в этом случае не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происходит на уровне токенов.
- Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэкономить и память. Но тут так не делают.
Тренят модель на:
– На 1.3M картинках из Imagenet и на синтетике.
– Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтранули клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало.
Результаты:
Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель.
В репе есть код тренировки (на DeepSpeed). Недавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание).
Вот веса моделей:
- B/2 с 8-ю экспертам (800 M, 12 блоков)
- G/2 с 16-ю экспертами (16.5 B, 40 блоков) - не выложили ха-ха.
@ai_newz
Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет.
Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда).
В чем профит использовать MoE?
- По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знания по отдельным экспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях.
- Выигрыша по памяти MoE в этом случае не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происходит на уровне токенов.
- Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэкономить и память. Но тут так не делают.
Тренят модель на:
– На 1.3M картинках из Imagenet и на синтетике.
– Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтранули клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало.
Результаты:
Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель.
В репе есть код тренировки (на DeepSpeed). Недавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание).
Вот веса моделей:
- B/2 с 8-ю экспертам (800 M, 12 блоков)
- G/2 с 16-ю экспертами (16.5 B, 40 блоков) - не выложили ха-ха.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney наконец-то начали выбираться из Discord!
В честь релиза вебверсии для всех пользователей врубили бесплатные триалы - дают бесплатно сгенерить 25 картинок. Дальше по подписке - они стоят от $10 до $120 за месяц или от $96 до $1152 за год.
В веб интерфейсе на удивление много фич - кроме стандартной галереи генераций и интерфейса промптинга там есть текстовые и голосовые чаты, текстовые связаны с дискордом. В придачу есть специальный интерфейс для ранкинга изображений в обмен на ускоренную генерацию картинок (очень умный способ получить данные для тюна практически бесплатно).
Заметьте как один из лучших генераторов изображений в мире больше двух лет был доступен лишь в дискорде. Фокус был на основном продукте - модели генерации, на вторичные фичи на распылялись. В том числе из-за этого
компания не просто профитная, она ни разу не привлекала денег, остальным стартапам есть чему у них поучиться.
https://www.midjourney.com/
@ai_newz
В честь релиза вебверсии для всех пользователей врубили бесплатные триалы - дают бесплатно сгенерить 25 картинок. Дальше по подписке - они стоят от $10 до $120 за месяц или от $96 до $1152 за год.
В веб интерфейсе на удивление много фич - кроме стандартной галереи генераций и интерфейса промптинга там есть текстовые и голосовые чаты, текстовые связаны с дискордом. В придачу есть специальный интерфейс для ранкинга изображений в обмен на ускоренную генерацию картинок (очень умный способ получить данные для тюна практически бесплатно).
Заметьте как один из лучших генераторов изображений в мире больше двух лет был доступен лишь в дискорде. Фокус был на основном продукте - модели генерации, на вторичные фичи на распылялись. В том числе из-за этого
компания не просто профитная, она ни разу не привлекала денег, остальным стартапам есть чему у них поучиться.
https://www.midjourney.com/
@ai_newz