эйай ньюз
63.8K subscribers
1.48K photos
790 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Новая t2i модель – PixArt 900M 1024x1024

На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.

Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.

В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.

Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.

Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.

Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.

Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2

Demo на обнимающем лице

@ai_newz
Live stream started
Live stream finished (1 hour)
Нейродайджест за неделю (#27)

LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.

Гайды

- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.

Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.

Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
Часть 1
Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)

> Читать дайджест #26

#дайджест
@ai_newz
Принес вам сборку компьютера для Deep Learning в 2024, и рассказ о работе ML инженера

Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.

По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).

Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.

Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.

Делитесь своими сборками для Deep Learning в комментах.

#карьера
@ai_newz
Купил билеты на ECCV, которая пройдет в конце сентября в Милане.

European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).

Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.

Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!

Кто-то из вас тоже планирует поехать?

#конфа
@ai_newz
XAI построили крупнейший тренировочный кластер в мире

Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии хватает примерно на четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.

Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.

Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре

@ai_newz
эйай ньюз
XAI построили крупнейший тренировочный кластер в мире Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии…
Апдейт: кластер хоть запитан не весь, но работает там сильно больше GPU, чем можно подумать по его потреблению из электросети. А именно ~32 тысячи H100, треть кластера.

Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.

А вот в четвёртом квартале энергии будет уже с избытком - подведено к датацентру будет 200 мегаватт, тогда как кушать он будет всего ~150.

@ai_newz
Meta выпустила Llama 3.1

Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов.

https://llama.meta.com/

@ai_newz
Сравнение 3.1 с 3.0, бенчмарки заметно подросли, за счёт дистилляции 405B в модели поменьше.

@ai_newz
А вот сравнение моделей с конкурентами. У нас теперь есть модель уровня GPT-4o, которую могут скачать простые смертные (те, у которых есть одна нода 8xGPU). Ждём результаты с арены и вайбчеки от обычных юзеров.

@ai_newz