эйай ньюз
63.8K subscribers
1.48K photos
789 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Сони-бои, руки на стол!

Зацените прикольный юзкейс. Можно управлять свом аватаром джойстиком, чтобы бегать по метаверсу прямо со своей приставки что ли.

Это все, конечно, не в риалтайме. Фильтр на красивое лицо и face animation сделан в постобработке (хотя можно было сделать риалтайм, используя, например, Imagine Flash или sdxl lightning и толстую видеокарту).

Но выглядит интересно. Давайте проголосуем и сделаем наши предсказания.

Нейро-рендер в играх – наше будущее?
👍 - да
🫡- нет

@ai_newz
У Claude наконец-то есть приложение на Android!

Я попробовал, вышло максимально базово - поддержку Artifacts, к примеру, не завезли. У OpenAI приложение пока что на голову лучше, но они и выпустились на год раньше, было время развить до хорошего состояния.

Приложение в Play Market

@ai_newz
🔥На прошлой неделе нас стало 50.000!
В воскресенье будет стрим!


Это крутая отметка, мне очень приятно, что вам нравится мой контент, и вы меня регулярно читаете. Спасибо, друзья! 🤗

Чтобы отпраздновать, в это воскресенье я хочу провести стрим с 16:00 до 17:00 CET.

Мне задают много вопросов про то, как прокачивать свои навыки в AI, в какую магистратуру пойти или как выбрать научную группу для PhD. Про все эти темы плюс про вопросы по карьере в AI ресерче, собеседования и поиск работы поговорим на стриме!

А пока пишите в комментах свои вопросы.

Добавляйте себе в календарь: инвайт.
Буду рад вас увидеть в воскресенье!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Live stream scheduled for
Новая t2i модель – PixArt 900M 1024x1024

На HuggingFace появилось новая модификация DiT на базе PixArt-Σ.

Что за она?
Оригинальная модель Pixart-Σ - это DiT с 28 слоями, которая имеет 600 M параметров в сумме. Умельцы взяли эту модель и прикрутили к ней еще 14 слоев (наверное, тупо добавили в конец). В итоге получили модель с 42 слоями и 900 M параметров. Далее это все дообучили на датасете с 3.5 млн картинок, причем первые 28 слоев инициализировали весами Pixart-Σ.

В датасете были генерации из MJ-6, DALLE-3, аниме и профессиональные фотографии. А тюнили все всего лишь на 8xA100.

Результаты:
На реддите модель хвалят, кто-то даже говорит, что для него она лушче чем SD3. Я потестил Pixart-Σ 600M против PixArt 900M на нескольких промптах cfv. Почти везде Σ лучше чем версия 900 M, кроме может быть аниме. На картинках слева - Σ, справа - PixArt 900M, промпты оставлю в комментах.

Модель еще очень сильно недотренирована, контуры обектов часто не очень четкие, детализация тоже еще не очень высокая. Что-ж, ждем новых версий тюна.

Я думаю, что учить с нуля было бы лучше, но так как это опенсорс, то все на энтузиазме, ресурсов мало, и поэтому придумали такой дешманский метод, чтобы расширить размер модели.

Веса:
- Базовая модель: https://huggingface.co/terminusresearch/pixart-900m-1024-ft-v0.5
- Файнтюн (его еще продолжают тренировать): https://huggingface.co/ptx0/pixart-900m-1024-ft-v0.7-stage2

Demo на обнимающем лице

@ai_newz
Live stream started
Live stream finished (1 hour)
Нейродайджест за неделю (#27)

LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.

Гайды

- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.

Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.

Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
Часть 1
Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)

> Читать дайджест #26

#дайджест
@ai_newz
Принес вам сборку компьютера для Deep Learning в 2024, и рассказ о работе ML инженера

Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.

По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).

Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.

Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.

Делитесь своими сборками для Deep Learning в комментах.

#карьера
@ai_newz
Купил билеты на ECCV, которая пройдет в конце сентября в Милане.

European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).

Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.

Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!

Кто-то из вас тоже планирует поехать?

#конфа
@ai_newz