эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Еще генераций от Stable Diffusion 3.

Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.

Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.

@ai_newz
Инженерные грейды в Big Tech (ч1)

Меня часто спрашиваю про грейды в Big Tech компаниях. В MAANG и прочих Биг-Техах существует четка иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Чем выше ваш грейд, тем больший масштаб импакта от вас ожидается, и тем шире должно быть ваше влияние на коллег вокруг, то есть требуется больше лидерских качеств.

В этом посте поговорим только про инженеров (SWE) и иcследователей (RS), которые, как правило, прокачиваются по одной и той же лестнице грейдов.

Система уровней в Meta и в Google считается христоматийной - она у них почти идентичная. Ее мы и рассмотрим.

E3, Junior: Начальный уровень - это джун, которого наняли без опыта после бакалавра или магистратуры. От джуна ожидается выполнять назначенные таски без большой помощи извне и не бояться задавать вопросы, если застрял. В Мете дают 2 года, чтобы запромоутиться с E3 до E4, иначе на выход.

E4, Middle: Средний уровень, на который хайрят после 1-5 лет опыта либо свежих выпускников с PhD. Мидл берет на себя отдельные фичи в проекте (много тасок) и выполняет их с минимальным руководством извне. На этом уровне ставят жесткие рамки в 3 года, чтобы стать E5.

E5, Senior: Это независимая боевая единица в компании, эксперт в своей сфере. Синьор владеет целыми фичами или системами и успешно завершает свои проекты. Это терминальный уровень в том смысле, что на этом уровне можно оставаться до пенсии. Промоушен на E6 никто обещать не может, так как прыжок с E5 на E6 на порядок сложнее чем с E4 на E5.

Про E6+ расскажу в следующем посте.

#bigtechlevels #карьера

@ai_newz
Инженерные грейды в Big Tech (ч2)

Все инженеры глобально делятся на две категории: просто инженеры (E3-E5) и Стафф+ (E6+) инженеры. Тут под инженерами я также имею в виду и сайнтистов - их глобально не отделяют и грейды у них такие же.

Когда в компании говорят про "leadership" роли, то обычно подразумевают именно Стафф+. Количество E6+ инженеров и сайнтистов в компаниях всего примерно 10%-15% .

E6, Staff: С этого уровня начинается новая игра. Стафф обладает исключительным техническим мастерством, имплементирует самые сложные фичи, решает задачи, которые мало кто может решить. Кроме того от него ожидаются еще и серьезные коммуникативные и лидерские качества. Он сам предлагает новые проекты и лидит их, ставит цели своей команде и влияет на другие команды.

E7, Senior Staff: Тут ожидают все тоже самое, что и на E6, но с еще большим импактом и ценностью для организации. Синьор стафф драйвит идеи от появления до реализации, попутно правильно расставляя приоритеты, понимая стратегию и тренды на масштабе всей компании.

E8, Principal Engineer/RS: Ты признанный эксперт в одной или нескольких областях как внутри компании так и за ее пределами. Твои проекты и идеи имеют влияние на всю компанию, а также на людей из твоей сферы в индустрии. В случае с наукой — ты исключительный эксперт, статьи которого узнают на конференциях. Как пример — Kaiming He, автор ResNet, который был где-то на E8-E9, пока не ушел из Меты в MIT.

Сложность перехода на каждый следующий уровень после Синьора (E5) растет экспоненциально, и количество людей на каждом следующем уровне убывает тоже по экспоненте.

Начиная с E6 появляются архетипы инженеров, например "фиксер", "архитектор", "тех лид", "Coding Machine" и другие. Про это поговорим позже. Но если вам любопытно, то подробнее про E6+ можно почитать на staffeng.com, там собраны истории людей на E6+ из разных крупных компаний.

#bigtechlevels #карьера

@ai_newz
Staff Research Scientist: Персональный апдейт

У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.

Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.

До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!

Exciting stuff!

#карьера #мойпуть

@ai_newz
Кажется, всем уже стало очевидно, что для создания топовых моделей кроме тысяч видеокарт нужны и петабайты хороших данных. И компании, которые имеют много данных будут стараться монетизировать это.

И вот как раз прошла новость о том, что Reddit заключил сделку с Google - им продают права тренировать модели на всем контенте с Reddit. По слухам, это будет стоить Гуглу $60M в год. Reddit выходит на IPO в ближайшее время, и им очень хочется подкачать свой кеш флоу перед этим, чтобы увеличить оценку (говорят, что она будет ~$5 млрд).

Так что, если вы хоть когда-то постили на Reddit, то новая итерация Gemini сможет заговорить вашими словами. Кстати, наверное все видео и картинки с Редитта тоже закинут в топку для тренировки гугловских Generative AI моделей. Не понятно только, как они будут отфильтровывать вещи, на которые у самих юзеров реддита не было прав копировать и постить на форуме. И обидно, что за тексты, которые юзеры нагенерили на сайте, они не получат ни копейки.

П.С. я думаю, Реддит и так уже спарсили все, кому не лень, но теперь это будут делать и крупные игроки официально.

@ai_newz
эйай ньюз
Photo
Кстати, нашу статью Cache Me if You Can по ускорению text2img диффузии приняли на CVPR 2024!

На прошлой неделе пришли финальные рецензии, но я забыл об этом написать. Вознаграждение за работу всегда приходит с небольшой задержкой, когда выносят решения о публикации статьи на конференции :)

Надеюсь, в этом году опять слетать на CVPR, на этот раз конфа будет в Сиэттле. Если будете там тоже — пересечёмся, обсудим папиры.

#карьера
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!

Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.

В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!

Сайт проекта
Статья

@ai_newz
🔥Stable Diffusion 3: статья с деталями

А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

@ai_newz
Media is too big
VIEW IN TELEGRAM
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.

Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.

ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.

Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF

@ai_newz
Авторы попробовали вывести scaling law. Из графика видно, что если дальше докидывать тренировочные данные (ось X) либо увеличивать размер модели (размер кружочков), то ошибка продолжит падать.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
VastGaussian — SOTA по реконструкции огромных 3D сцен

Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.

Сайт проекта с деталями

@ai_newz
Никогда такого не было. В этот раз статья на ECCV была написана сильно заранее. Засабмитили одну из статей за 6 минут до дедлайна (буквально 5 минут назад).😀

Обычно все как-то в xx:59. Это мой личный рекорд!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, я сейчас в Грузии! 🇬🇪 Обалденная страна.

Давайте устроим сходку сегодня вечером в Тбилиси. Напишите в комментариях, если вы тут и хотите пересечься. Много людей вместить не сможем, но на человеке 8-10, наверное, сможем найти место.

#personal
@ai_newz
Вчера в Тбилиси получилась отличная встреча в шикарной компании!

Было много интересных бесед про карьеру, работу в ресерче, учебу за границей, да и просто про жизни. Все были очень заряженные, обменивались опытом и идеями.

Ну, а во время всего этого было выпито немало замечательного грузинского вина!

Я часто бываю в разных странах, и мне очень нравится организовывать такие сходки. Спасибо всем, кто пришел вчера. А с теми, кто не смог прийти, надеюсь, ещё не раз пересечёмся в других локациях!

#personal
@ai_newz
🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz