⚡Новая t2i модель – PixArt 900M 1024x1024
На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.
Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.
В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.
Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.
Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.
Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.
Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2
Demo на обнимающем лице
@ai_newz
На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.
Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.
В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.
Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.
Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.
Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.
Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2
Demo на обнимающем лице
@ai_newz
эйай ньюз
Через 40 минут начинаем стрим!
Присоединяйтесь, и накидывайте вопросы (про учебу, ресерч, карьеру в AI, и на смежные темы) в комменты под этим постом.
@ai_newz
Присоединяйтесь, и накидывайте вопросы (про учебу, ресерч, карьеру в AI, и на смежные темы) в комменты под этим постом.
@ai_newz
Нейродайджест за неделю (#27)
LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.
Гайды
- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.
Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.
Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
– Часть 1
– Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)
> Читать дайджест #26
#дайджест
@ai_newz
LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.
Гайды
- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.
Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.
Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
– Часть 1
– Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)
> Читать дайджест #26
#дайджест
@ai_newz
Принес вам сборку компьютера для Deep Learning в 2024, и рассказ о работе ML инженера
Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.
По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).
Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.
Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.
Делитесь своими сборками для Deep Learning в комментах.
#карьера
@ai_newz
Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.
По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).
Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.
Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.
Делитесь своими сборками для Deep Learning в комментах.
#карьера
@ai_newz
Купил билеты на ECCV, которая пройдет в конце сентября в Милане.
European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).
Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.
Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!
Кто-то из вас тоже планирует поехать?
#конфа
@ai_newz
European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).
Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.
Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!
Кто-то из вас тоже планирует поехать?
#конфа
@ai_newz
XAI построили крупнейший тренировочный кластер в мире
Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии хватает примерно на четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.
Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.
Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре
@ai_newz
Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии хватает примерно на четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.
Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.
Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре
@ai_newz
эйай ньюз
XAI построили крупнейший тренировочный кластер в мире Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии…
Апдейт: кластер хоть запитан не весь, но работает там сильно больше GPU, чем можно подумать по его потреблению из электросети. А именно ~32 тысячи H100, треть кластера.
Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.
А вот в четвёртом квартале энергии будет уже с избытком - подведено к датацентру будет 200 мегаватт, тогда как кушать он будет всего ~150.
@ai_newz
Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.
А вот в четвёртом квартале энергии будет уже с избытком - подведено к датацентру будет 200 мегаватт, тогда как кушать он будет всего ~150.
@ai_newz
Знаю, что многие из вас интересуются не только ресерчем, но и AI с продуктовой точки зрения.
Поэтому, вот, ловите список книг для вкатывания в тему, где сливается AI и бизнес: https://t.iss.one/ainastia/23
#книги
@ai_newz
Поэтому, вот, ловите список книг для вкатывания в тему, где сливается AI и бизнес: https://t.iss.one/ainastia/23
#книги
@ai_newz
Telegram
Anastasia.ai – Tech Entrepreneur in🇨🇭
Топ 11 книг для начинающих Data/AI продакт менеджеров
Как я уже писала в предыдущем посте, сфера Data/AI продакт менеджмента на данный момент очень востребована и состоит из четырех областей: данные/ИИ, юзер-дизайн, технологии (софт) и бизнес.
Чтобы уверенно…
Как я уже писала в предыдущем посте, сфера Data/AI продакт менеджмента на данный момент очень востребована и состоит из четырех областей: данные/ИИ, юзер-дизайн, технологии (софт) и бизнес.
Чтобы уверенно…
Meta выпустила Llama 3.1
Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов.
https://llama.meta.com/
@ai_newz
Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов.
https://llama.meta.com/
@ai_newz