Сони-бои, руки на стол!
Зацените прикольный юзкейс. Можно управлять свом аватаром джойстиком, чтобы бегать по метаверсу прямо со своей приставки что ли.
Это все, конечно, не в риалтайме. Фильтр на красивое лицо и face animation сделан в постобработке (хотя можно было сделать риалтайм, используя, например, Imagine Flash или sdxl lightning и толстую видеокарту).
Но выглядит интересно. Давайте проголосуем и сделаем наши предсказания.
Нейро-рендер в играх – наше будущее?
👍 - да
🫡- нет
@ai_newz
Зацените прикольный юзкейс. Можно управлять свом аватаром джойстиком, чтобы бегать по метаверсу прямо со своей приставки что ли.
Это все, конечно, не в риалтайме. Фильтр на красивое лицо и face animation сделан в постобработке (хотя можно было сделать риалтайм, используя, например, Imagine Flash или sdxl lightning и толстую видеокарту).
Но выглядит интересно. Давайте проголосуем и сделаем наши предсказания.
Нейро-рендер в играх – наше будущее?
👍 - да
🫡- нет
@ai_newz
У Claude наконец-то есть приложение на Android!
Я попробовал, вышло максимально базово - поддержку Artifacts, к примеру, не завезли. У OpenAI приложение пока что на голову лучше, но они и выпустились на год раньше, было время развить до хорошего состояния.
Приложение в Play Market
@ai_newz
Я попробовал, вышло максимально базово - поддержку Artifacts, к примеру, не завезли. У OpenAI приложение пока что на голову лучше, но они и выпустились на год раньше, было время развить до хорошего состояния.
Приложение в Play Market
@ai_newz
В воскресенье будет стрим!
Это крутая отметка, мне очень приятно, что вам нравится мой контент, и вы меня регулярно читаете. Спасибо, друзья!
Чтобы отпраздновать, в это воскресенье я хочу провести стрим с 16:00 до 17:00 CET.
Мне задают много вопросов про то, как прокачивать свои навыки в AI, в какую магистратуру пойти или как выбрать научную группу для PhD. Про все эти темы плюс про вопросы по карьере в AI ресерче, собеседования и поиск работы поговорим на стриме!
А пока пишите в комментах свои вопросы.
Добавляйте себе в календарь: инвайт.
Буду рад вас увидеть в воскресенье!
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡Новая t2i модель – PixArt 900M 1024x1024
На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.
Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.
В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.
Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.
Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.
Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.
Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2
Demo на обнимающем лице
@ai_newz
На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.
Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.
В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.
Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.
Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.
Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.
Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2
Demo на обнимающем лице
@ai_newz
эйай ньюз
Через 40 минут начинаем стрим!
Присоединяйтесь, и накидывайте вопросы (про учебу, ресерч, карьеру в AI, и на смежные темы) в комменты под этим постом.
@ai_newz
Присоединяйтесь, и накидывайте вопросы (про учебу, ресерч, карьеру в AI, и на смежные темы) в комменты под этим постом.
@ai_newz
Нейродайджест за неделю (#27)
LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.
Гайды
- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.
Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.
Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
– Часть 1
– Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)
> Читать дайджест #26
#дайджест
@ai_newz
LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.
Гайды
- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.
Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.
Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
– Часть 1
– Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)
> Читать дайджест #26
#дайджест
@ai_newz
Принес вам сборку компьютера для Deep Learning в 2024, и рассказ о работе ML инженера
Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.
По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).
Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.
Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.
Делитесь своими сборками для Deep Learning в комментах.
#карьера
@ai_newz
Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.
По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).
Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.
Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.
Делитесь своими сборками для Deep Learning в комментах.
#карьера
@ai_newz
Купил билеты на ECCV, которая пройдет в конце сентября в Милане.
European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).
Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.
Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!
Кто-то из вас тоже планирует поехать?
#конфа
@ai_newz
European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).
Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.
Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!
Кто-то из вас тоже планирует поехать?
#конфа
@ai_newz