Google выпустил Gemma 2 2B
Модель - SOTA в своей весовой категории, запускается везде: в браузере, на телефоне, на посудомойке. На арене перегоняет даже GPT 3.5, но веры арене теперь нет.
Модель дистиллировали из какой-то более жирной LLM (какой именно не сказано), как это сейчас делают для большинства мелких моделек. Так как дистилляция даёт лучший результат чем тренировка с нуля.
Но самое интересное в релизе - натренированные Sparse Autoencoder (SAE) для всех слоёв Gemma 2 2B и 9B. Это нейронки выделяющие отдельные фичи из активаций LLM. Они позволяют нам не только читать их "мысли", но и напрямую влиять на них! Если вы видели майское демо Golden Bridge Claude от Anthropic, то вы уже видели SAE в действии.
На Neuronpedia выпустили демку, где каждый может поиграться с этим.
На картинке - активность ряда топовых лаб на huggingface в этом году
Веса модели
Веса Sparse Autoencoders
Демка "чтения мыслей" Gemma
Ещё, умельцы уже запилили ноутбук для файнтюна модели в бесплатном коллабе.
@ai_newz
Модель - SOTA в своей весовой категории, запускается везде: в браузере, на телефоне, на посудомойке. На арене перегоняет даже GPT 3.5, но веры арене теперь нет.
Модель дистиллировали из какой-то более жирной LLM (какой именно не сказано), как это сейчас делают для большинства мелких моделек. Так как дистилляция даёт лучший результат чем тренировка с нуля.
Но самое интересное в релизе - натренированные Sparse Autoencoder (SAE) для всех слоёв Gemma 2 2B и 9B. Это нейронки выделяющие отдельные фичи из активаций LLM. Они позволяют нам не только читать их "мысли", но и напрямую влиять на них! Если вы видели майское демо Golden Bridge Claude от Anthropic, то вы уже видели SAE в действии.
На Neuronpedia выпустили демку, где каждый может поиграться с этим.
На картинке - активность ряда топовых лаб на huggingface в этом году
Веса модели
Веса Sparse Autoencoders
Демка "чтения мыслей" Gemma
Ещё, умельцы уже запилили ноутбук для файнтюна модели в бесплатном коллабе.
@ai_newz
Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!
Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!
Кажется, делали FLUX.1 по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.
FLUX.1 вышла в 3 вариантах:
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell
Репа с кодом
Блогпост
Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут я сравнил FLUX.1 [pro] с FLUX.1 [dev].
Видно, что Guidance Distillation очень хорошо справилась с задачей и почти не повлияла на качество FLUX.1 [dev].
High-frequency детали не такие резкие у дистиллированной модели – смотри на перья Эму в первой паре.
Text Faithfulness только немного пострадал от дистилляции – вместо двух алигаторов, стал только один. В остальном в моем маленьком тесте она показала себя на уровне оригинально модели. Даже на тесте с людьми и гориллами, где модели от гугла часто прокалывались в прошлом, FLUX.1 модель выдала достойный результат.
Первая картинка в каждой паре - FLUX.1 [pro],
Ввторая картинка - FLUX.1 [dev].
Промпты в комментах.
Тыкал в бесплатое демо:
- https://fal.ai/models/fal-ai/flux-pro
- https://fal.ai/models/fal-ai/flux/dev
@ai_newz
Видно, что Guidance Distillation очень хорошо справилась с задачей и почти не повлияла на качество FLUX.1 [dev].
High-frequency детали не такие резкие у дистиллированной модели – смотри на перья Эму в первой паре.
Text Faithfulness только немного пострадал от дистилляции – вместо двух алигаторов, стал только один. В остальном в моем маленьком тесте она показала себя на уровне оригинально модели. Даже на тесте с людьми и гориллами, где модели от гугла часто прокалывались в прошлом, FLUX.1 модель выдала достойный результат.
Первая картинка в каждой паре - FLUX.1 [pro],
Ввторая картинка - FLUX.1 [dev].
Промпты в комментах.
Тыкал в бесплатое демо:
- https://fal.ai/models/fal-ai/flux-pro
- https://fal.ai/models/fal-ai/flux/dev
@ai_newz
Умельцы прикрутили новую Ламу 405B к Comfy UI.
Работает на хостинге Replicate. По сути, это кастомная нода, которая пишет полноценный промпт из простого описания (prompt rewrite), так же как ChatGPT для Dalle-3.
Вообще мне не очень понравился процесс генерации картинок в нашем любимом чатГПТ, потому что у тебя нет контроля над финальным промптом, который идёт в диффузионку. Даже если просишь использовать данный промпт слово в слово, гптишка нет-нет, да меняет там что-нибудь без твоего разрешения. А суть промпт-инжиниринга в том, чтобы итеративно менять промпт и смотреть, что улучшилось, но бот часто берет и всё переписывает. Хотя для новичков это, конечно, топчик. Ну и как отправная точка для профи, тоже хорошо.
Вижу такой пайплайн для генерации короткометражных фильмов:
1) Сценарист выдаёт краткое описание кадров и, может быть, скетч от руки.
2) Нодами генерим промпт для каждого кадра на вход, берём скетчи и раскадровку от сценариста.
3) Художник пишет промпт для стиля. Добавляем его после промпта каждого кадра отдельной нодой. Подбирает модельки, лоры и пр.
4) Запускаем весь батч раз 5-10, берём лучшие кадры.
5) Идем в Luma оживлять картинки.
Кстати, нужны гайды по Комфи? Ставьте 🦄
Гитхаб
@ai_newz
Работает на хостинге Replicate. По сути, это кастомная нода, которая пишет полноценный промпт из простого описания (prompt rewrite), так же как ChatGPT для Dalle-3.
Вообще мне не очень понравился процесс генерации картинок в нашем любимом чатГПТ, потому что у тебя нет контроля над финальным промптом, который идёт в диффузионку. Даже если просишь использовать данный промпт слово в слово, гптишка нет-нет, да меняет там что-нибудь без твоего разрешения. А суть промпт-инжиниринга в том, чтобы итеративно менять промпт и смотреть, что улучшилось, но бот часто берет и всё переписывает. Хотя для новичков это, конечно, топчик. Ну и как отправная точка для профи, тоже хорошо.
Вижу такой пайплайн для генерации короткометражных фильмов:
1) Сценарист выдаёт краткое описание кадров и, может быть, скетч от руки.
2) Нодами генерим промпт для каждого кадра на вход, берём скетчи и раскадровку от сценариста.
3) Художник пишет промпт для стиля. Добавляем его после промпта каждого кадра отдельной нодой. Подбирает модельки, лоры и пр.
4) Запускаем весь батч раз 5-10, берём лучшие кадры.
5) Идем в Luma оживлять картинки.
Кстати, нужны гайды по Комфи? Ставьте 🦄
Гитхаб
@ai_newz
Вместе с ним Google хайрит ещё одного кофаундера и около 30 (из 130) сотрудников Character. Взамен Google даёт большой мешок денег инвесторам стартапа и лицензирует его технологии. По факту это приобретение, но чтобы не разозлить FTC какой-то призрак компании будет функционировать.
Ноам это один из главных звёзд в ИИ ресёрче: один из авторов оригинального Attention is All You Need, T5, PaLM, нескольких важных пейперов о MoE, придумал Multi-Query Attention. Количество людей с таким количеством импакта можно посчитать на пальцах.
В итоге Google станет ещё сильнее, особенно интересно это ощущается на фоне недавних результатов на арене. Из приятного - Character обещает удариться в опенсорс, учитывая уровень эффективности их моделей, всему опенсорс комьюнити они точно не помешают.
А помните пару месяцев назад Microsoft провернул такой же трюк с Inflection?
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
У Nvidia проблемы - Blackwell задерживается
В суперчипах GB200 нашли изъян - у чипа, отвечающего за связь двух B200 друг с другом и с Grace CPU, слишком большое количество производственных дефектов. Чтобы удовлетворить гигантский спрос, его нужно редизайнить. Если всё пойдёт хорошо, Blackwell поставят на три месяца позже планируемого срока.
Это заметно задержит развёртывание ряда кластеров: Microsoft хотела дать OpenAI доступ к 50 тыс.+ GPU нового поколения к началу 2025 года, Google заказал 400 тыс. GPU для своего облака, ряд других технологических гигантов сделали заказы на 10+ миллиардов долларов. Из-за этого новое поколение моделей, для тренировки которых и нужны новые кластеры, задержится на несколько месяцев.
@ai_newz
В суперчипах GB200 нашли изъян - у чипа, отвечающего за связь двух B200 друг с другом и с Grace CPU, слишком большое количество производственных дефектов. Чтобы удовлетворить гигантский спрос, его нужно редизайнить. Если всё пойдёт хорошо, Blackwell поставят на три месяца позже планируемого срока.
Это заметно задержит развёртывание ряда кластеров: Microsoft хотела дать OpenAI доступ к 50 тыс.+ GPU нового поколения к началу 2025 года, Google заказал 400 тыс. GPU для своего облака, ряд других технологических гигантов сделали заказы на 10+ миллиардов долларов. Из-за этого новое поколение моделей, для тренировки которых и нужны новые кластеры, задержится на несколько месяцев.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Whisper Medusa - сверхбыстрое распознавание речи
Файнтюн Whisper со слегка изменённой архитектурой - теперь за одну итерацию модель выдаёт несколько токенов, а не один. В разы ускоряет декодинг, но качество слегка проседает.
Подход похож на недавнюю Multi-Token Prediction Language Model от коллег из Meta, только тут это применили для распознавания речи
Ждём когда это применят к Distil Whisper
Код
Веса
@ai_newz
Файнтюн Whisper со слегка изменённой архитектурой - теперь за одну итерацию модель выдаёт несколько токенов, а не один. В разы ускоряет декодинг, но качество слегка проседает.
Подход похож на недавнюю Multi-Token Prediction Language Model от коллег из Meta, только тут это применили для распознавания речи
Ждём когда это применят к Distil Whisper
Код
Веса
@ai_newz
Стартап Exactly.ai ищет Head of ML Engineering
Exactly.ai — это платформа, позволяющий художникам тренировать ML-модели на своих иллюстрациях и предоставлять их в аренду брендам. Бренды могут создавать иллюстрации для маркетинговых кампаний с помощью моделей лучших художников. Exactly.ai — самый большой хаб персональных моделей, созданных профессиональными художниками и иллюстраторами. В прошлом году Google включил Exactly.ai в топ-15 лучших стартапов. Компания привлекла Seed Round и стремится к расширению.
Мы ищем специалиста с опытом в ML-инженерии и руководстве командой, который будет играть ключевую роль в развитии наших технологий.
Ваша работа будет включать разработку и внедрение инновационных ML решений, оптимизацию и улучшение существующих алгоритмов и моделей, а также управление командой ML-инженеров.
Крутая команда, конкурентная зарплата, опцион, офис в Лондоне с возможностью удаленной работы, подробности.
Если вам интересно, отправьте ваше резюме и сопроводительное письмо на [email protected]
#промо
Exactly.ai — это платформа, позволяющий художникам тренировать ML-модели на своих иллюстрациях и предоставлять их в аренду брендам. Бренды могут создавать иллюстрации для маркетинговых кампаний с помощью моделей лучших художников. Exactly.ai — самый большой хаб персональных моделей, созданных профессиональными художниками и иллюстраторами. В прошлом году Google включил Exactly.ai в топ-15 лучших стартапов. Компания привлекла Seed Round и стремится к расширению.
Мы ищем специалиста с опытом в ML-инженерии и руководстве командой, который будет играть ключевую роль в развитии наших технологий.
Ваша работа будет включать разработку и внедрение инновационных ML решений, оптимизацию и улучшение существующих алгоритмов и моделей, а также управление командой ML-инженеров.
Крутая команда, конкурентная зарплата, опцион, офис в Лондоне с возможностью удаленной работы, подробности.
Если вам интересно, отправьте ваше резюме и сопроводительное письмо на [email protected]
#промо
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
В последнее время, увеличение размера словаря токенизатора для LLM всплывало в основном как метод улучшения многоязычного перформанса. Но часто народ забывает, что увеличение размера словаря ещё и позволяет пропустить через LLM больше текста при том же компьюте (потому что в каждый токен, в среднем, будет влезать больше букв), тем самым повысив эффективность тренировки и улучшив результаты модели. Но где предел такому росту эффективности?
В этом пейпере авторы натренировали ряд моделей с разными размерами словаря токенизатора и вывели формулу для расчёта оптимальных размеров. Вот основные выводы:
➖ У большинства современных моделей словари слишком маленькие, результаты можно заметно улучшить просто его увеличив.
➖ Оптимальный размер словаря растёт очень медленно - с увеличением модели в 100 раз, оптимальный словарь растёт в 10.
➖ Модели учатся хуже как со словарём больше оптимального, так и меньше оптимального.
➖ Если есть ограничение в размере датасета, иногда лучше использовать неоптимальный токенизатор, чтобы увеличить количество токенов, и тем самым улучшить результаты.
➖ Оптимальный размер словаря токенизатора Llama 3.1 405B - полмиллиона токенов, в 4 раза больше оригинального словаря.
Токенизаторы — это всё ещё очень плохо изученная тема, и даже большие лабы делают тут банальные ошибки. Если хотите разобраться как они работают сейчас, то вот лучший туториал.
Пейпер
@ai_newz
В последнее время, увеличение размера словаря токенизатора для LLM всплывало в основном как метод улучшения многоязычного перформанса. Но часто народ забывает, что увеличение размера словаря ещё и позволяет пропустить через LLM больше текста при том же компьюте (потому что в каждый токен, в среднем, будет влезать больше букв), тем самым повысив эффективность тренировки и улучшив результаты модели. Но где предел такому росту эффективности?
В этом пейпере авторы натренировали ряд моделей с разными размерами словаря токенизатора и вывели формулу для расчёта оптимальных размеров. Вот основные выводы:
➖ У большинства современных моделей словари слишком маленькие, результаты можно заметно улучшить просто его увеличив.
➖ Оптимальный размер словаря растёт очень медленно - с увеличением модели в 100 раз, оптимальный словарь растёт в 10.
➖ Модели учатся хуже как со словарём больше оптимального, так и меньше оптимального.
➖ Если есть ограничение в размере датасета, иногда лучше использовать неоптимальный токенизатор, чтобы увеличить количество токенов, и тем самым улучшить результаты.
➖ Оптимальный размер словаря токенизатора Llama 3.1 405B - полмиллиона токенов, в 4 раза больше оригинального словаря.
Токенизаторы — это всё ещё очень плохо изученная тема, и даже большие лабы делают тут банальные ошибки. Если хотите разобраться как они работают сейчас, то вот лучший туториал.
Пейпер
@ai_newz
Варшава x ai_newz!
Друзья, я еду Варшаву на несколько дней! Хочется поотдыхать и поработать в новой обстановке, и, конечно, поесть белорусской, украинской и польской вкуснятины (кстати, посоветуйте хорошие места)!
Я знаю, что там должно быть очень большое комьюнити наших ребят. Было бы круто сделать сходку, познакомиться. В этом году я так уже делал в Сан-Франциско и Тбилиси – это были всегда очень классные встречи.
Если вы сейчас в Варшаве, вступайте в чат, там договоримся, когда и где организуем митап:
https://t.iss.one/+XZX3N3B-DP9mZjUy
#personal
@ai_newz
Друзья, я еду Варшаву на несколько дней! Хочется поотдыхать и поработать в новой обстановке, и, конечно, поесть белорусской, украинской и польской вкуснятины (кстати, посоветуйте хорошие места)!
Я знаю, что там должно быть очень большое комьюнити наших ребят. Было бы круто сделать сходку, познакомиться. В этом году я так уже делал в Сан-Франциско и Тбилиси – это были всегда очень классные встречи.
Если вы сейчас в Варшаве, вступайте в чат, там договоримся, когда и где организуем митап:
https://t.iss.one/+XZX3N3B-DP9mZjUy
#personal
@ai_newz