🔥Stable Diffusion 3 на подходе!
Stability.ai наконец публично анонсировали то, о чем я упоминал в этом посте.
Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.
- За счет этого модель умеет круто генерить текст.
- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.
- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно на линейных траекториях между шумом и реальными картинками.
Статья
Вэйтлист
@ai_newz
Stability.ai наконец публично анонсировали то, о чем я упоминал в этом посте.
Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.
- За счет этого модель умеет круто генерить текст.
- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.
- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно на линейных траекториях между шумом и реальными картинками.
Статья
Вэйтлист
@ai_newz
Еще генераций от Stable Diffusion 3.
Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.
Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.
@ai_newz
Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.
Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.
@ai_newz
Инженерные грейды в Big Tech (ч1)
Меня часто спрашиваю про грейды в Big Tech компаниях. В MAANG и прочих Биг-Техах существует четка иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Чем выше ваш грейд, тем больший масштаб импакта от вас ожидается, и тем шире должно быть ваше влияние на коллег вокруг, то есть требуется больше лидерских качеств.
В этом посте поговорим только про инженеров (SWE) и иcследователей (RS), которые, как правило, прокачиваются по одной и той же лестнице грейдов.
Система уровней в Meta и в Google считается христоматийной - она у них почти идентичная. Ее мы и рассмотрим.
E3, Junior: Начальный уровень - это джун, которого наняли без опыта после бакалавра или магистратуры. От джуна ожидается выполнять назначенные таски без большой помощи извне и не бояться задавать вопросы, если застрял. В Мете дают 2 года, чтобы запромоутиться с E3 до E4, иначе на выход.
E4, Middle: Средний уровень, на который хайрят после 1-5 лет опыта либо свежих выпускников с PhD. Мидл берет на себя отдельные фичи в проекте (много тасок) и выполняет их с минимальным руководством извне. На этом уровне ставят жесткие рамки в 3 года, чтобы стать E5.
E5, Senior: Это независимая боевая единица в компании, эксперт в своей сфере. Синьор владеет целыми фичами или системами и успешно завершает свои проекты. Это терминальный уровень в том смысле, что на этом уровне можно оставаться до пенсии. Промоушен на E6 никто обещать не может, так как прыжок с E5 на E6 на порядок сложнее чем с E4 на E5.
Про E6+ расскажу в следующем посте.
#bigtechlevels #карьера
@ai_newz
Меня часто спрашиваю про грейды в Big Tech компаниях. В MAANG и прочих Биг-Техах существует четка иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Чем выше ваш грейд, тем больший масштаб импакта от вас ожидается, и тем шире должно быть ваше влияние на коллег вокруг, то есть требуется больше лидерских качеств.
В этом посте поговорим только про инженеров (SWE) и иcследователей (RS), которые, как правило, прокачиваются по одной и той же лестнице грейдов.
Система уровней в Meta и в Google считается христоматийной - она у них почти идентичная. Ее мы и рассмотрим.
E3, Junior: Начальный уровень - это джун, которого наняли без опыта после бакалавра или магистратуры. От джуна ожидается выполнять назначенные таски без большой помощи извне и не бояться задавать вопросы, если застрял. В Мете дают 2 года, чтобы запромоутиться с E3 до E4, иначе на выход.
E4, Middle: Средний уровень, на который хайрят после 1-5 лет опыта либо свежих выпускников с PhD. Мидл берет на себя отдельные фичи в проекте (много тасок) и выполняет их с минимальным руководством извне. На этом уровне ставят жесткие рамки в 3 года, чтобы стать E5.
E5, Senior: Это независимая боевая единица в компании, эксперт в своей сфере. Синьор владеет целыми фичами или системами и успешно завершает свои проекты. Это терминальный уровень в том смысле, что на этом уровне можно оставаться до пенсии. Промоушен на E6 никто обещать не может, так как прыжок с E5 на E6 на порядок сложнее чем с E4 на E5.
Про E6+ расскажу в следующем посте.
#bigtechlevels #карьера
@ai_newz
Инженерные грейды в Big Tech (ч2)
Все инженеры глобально делятся на две категории: просто инженеры (E3-E5) и Стафф+ (E6+) инженеры. Тут под инженерами я также имею в виду и сайнтистов - их глобально не отделяют и грейды у них такие же.
Когда в компании говорят про "leadership" роли, то обычно подразумевают именно Стафф+. Количество E6+ инженеров и сайнтистов в компаниях всего примерно 10%-15% .
E6, Staff: С этого уровня начинается новая игра. Стафф обладает исключительным техническим мастерством, имплементирует самые сложные фичи, решает задачи, которые мало кто может решить. Кроме того от него ожидаются еще и серьезные коммуникативные и лидерские качества. Он сам предлагает новые проекты и лидит их, ставит цели своей команде и влияет на другие команды.
E7, Senior Staff: Тут ожидают все тоже самое, что и на E6, но с еще большим импактом и ценностью для организации. Синьор стафф драйвит идеи от появления до реализации, попутно правильно расставляя приоритеты, понимая стратегию и тренды на масштабе всей компании.
E8, Principal Engineer/RS: Ты признанный эксперт в одной или нескольких областях как внутри компании так и за ее пределами. Твои проекты и идеи имеют влияние на всю компанию, а также на людей из твоей сферы в индустрии. В случае с наукой — ты исключительный эксперт, статьи которого узнают на конференциях. Как пример — Kaiming He, автор ResNet, который был где-то на E8-E9, пока не ушел из Меты в MIT.
Сложность перехода на каждый следующий уровень после Синьора (E5) растет экспоненциально, и количество людей на каждом следующем уровне убывает тоже по экспоненте.
Начиная с E6 появляются архетипы инженеров, например "фиксер", "архитектор", "тех лид", "Coding Machine" и другие. Про это поговорим позже. Но если вам любопытно, то подробнее про E6+ можно почитать на staffeng.com, там собраны истории людей на E6+ из разных крупных компаний.
#bigtechlevels #карьера
@ai_newz
Все инженеры глобально делятся на две категории: просто инженеры (E3-E5) и Стафф+ (E6+) инженеры. Тут под инженерами я также имею в виду и сайнтистов - их глобально не отделяют и грейды у них такие же.
Когда в компании говорят про "leadership" роли, то обычно подразумевают именно Стафф+. Количество E6+ инженеров и сайнтистов в компаниях всего примерно 10%-15% .
E6, Staff: С этого уровня начинается новая игра. Стафф обладает исключительным техническим мастерством, имплементирует самые сложные фичи, решает задачи, которые мало кто может решить. Кроме того от него ожидаются еще и серьезные коммуникативные и лидерские качества. Он сам предлагает новые проекты и лидит их, ставит цели своей команде и влияет на другие команды.
E7, Senior Staff: Тут ожидают все тоже самое, что и на E6, но с еще большим импактом и ценностью для организации. Синьор стафф драйвит идеи от появления до реализации, попутно правильно расставляя приоритеты, понимая стратегию и тренды на масштабе всей компании.
E8, Principal Engineer/RS: Ты признанный эксперт в одной или нескольких областях как внутри компании так и за ее пределами. Твои проекты и идеи имеют влияние на всю компанию, а также на людей из твоей сферы в индустрии. В случае с наукой — ты исключительный эксперт, статьи которого узнают на конференциях. Как пример — Kaiming He, автор ResNet, который был где-то на E8-E9, пока не ушел из Меты в MIT.
Сложность перехода на каждый следующий уровень после Синьора (E5) растет экспоненциально, и количество людей на каждом следующем уровне убывает тоже по экспоненте.
Начиная с E6 появляются архетипы инженеров, например "фиксер", "архитектор", "тех лид", "Coding Machine" и другие. Про это поговорим позже. Но если вам любопытно, то подробнее про E6+ можно почитать на staffeng.com, там собраны истории людей на E6+ из разных крупных компаний.
#bigtechlevels #карьера
@ai_newz
Staff Research Scientist: Персональный апдейт
У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.
Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.
До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!
Exciting stuff!
#карьера #мойпуть
@ai_newz
У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.
Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.
До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!
Exciting stuff!
#карьера #мойпуть
@ai_newz
Кажется, всем уже стало очевидно, что для создания топовых моделей кроме тысяч видеокарт нужны и петабайты хороших данных. И компании, которые имеют много данных будут стараться монетизировать это.
И вот как раз прошла новость о том, что Reddit заключил сделку с Google - им продают права тренировать модели на всем контенте с Reddit. По слухам, это будет стоить Гуглу $60M в год. Reddit выходит на IPO в ближайшее время, и им очень хочется подкачать свой кеш флоу перед этим, чтобы увеличить оценку (говорят, что она будет ~$5 млрд).
Так что, если вы хоть когда-то постили на Reddit, то новая итерация Gemini сможет заговорить вашими словами. Кстати, наверное все видео и картинки с Редитта тоже закинут в топку для тренировки гугловских Generative AI моделей. Не понятно только, как они будут отфильтровывать вещи, на которые у самих юзеров реддита не было прав копировать и постить на форуме. И обидно, что за тексты, которые юзеры нагенерили на сайте, они не получат ни копейки.
П.С. я думаю, Реддит и так уже спарсили все, кому не лень, но теперь это будут делать и крупные игроки официально.
@ai_newz
И вот как раз прошла новость о том, что Reddit заключил сделку с Google - им продают права тренировать модели на всем контенте с Reddit. По слухам, это будет стоить Гуглу $60M в год. Reddit выходит на IPO в ближайшее время, и им очень хочется подкачать свой кеш флоу перед этим, чтобы увеличить оценку (говорят, что она будет ~$5 млрд).
Так что, если вы хоть когда-то постили на Reddit, то новая итерация Gemini сможет заговорить вашими словами. Кстати, наверное все видео и картинки с Редитта тоже закинут в топку для тренировки гугловских Generative AI моделей. Не понятно только, как они будут отфильтровывать вещи, на которые у самих юзеров реддита не было прав копировать и постить на форуме. И обидно, что за тексты, которые юзеры нагенерили на сайте, они не получат ни копейки.
П.С. я думаю, Реддит и так уже спарсили все, кому не лень, но теперь это будут делать и крупные игроки официально.
@ai_newz
Reuters
Exclusive: Reddit in AI content licensing deal with Google
Social media platform Reddit has struck a deal with Google to make its content available for training the search engine giant's artificial intelligence models, three people familiar with the matter said.
эйай ньюз
Photo
Кстати, нашу статью Cache Me if You Can по ускорению text2img диффузии приняли на CVPR 2024!
На прошлой неделе пришли финальные рецензии, но я забыл об этом написать. Вознаграждение за работу всегда приходит с небольшой задержкой, когда выносят решения о публикации статьи на конференции :)
Надеюсь, в этом году опять слетать на CVPR, на этот раз конфа будет в Сиэттле. Если будете там тоже — пересечёмся, обсудим папиры.
#карьера
@ai_newz
На прошлой неделе пришли финальные рецензии, но я забыл об этом написать. Вознаграждение за работу всегда приходит с небольшой задержкой, когда выносят решения о публикации статьи на конференции :)
Надеюсь, в этом году опять слетать на CVPR, на этот раз конфа будет в Сиэттле. Если будете там тоже — пересечёмся, обсудим папиры.
#карьера
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!
Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.
В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!
Сайт проекта
Статья
@ai_newz
Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!
Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.
В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!
Сайт проекта
Статья
@ai_newz
🔥Stable Diffusion 3: статья с деталями
А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
@ai_newz
А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
@ai_newz
Media is too big
VIEW IN TELEGRAM
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
VastGaussian — SOTA по реконструкции огромных 3D сцен
Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.
Сайт проекта с деталями
@ai_newz
Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.
Сайт проекта с деталями
@ai_newz
Никогда такого не было. В этот раз статья на ECCV была написана сильно заранее. Засабмитили одну из статей за 6 минут до дедлайна (буквально 5 минут назад).😀
Обычно все как-то в xx:59. Это мой личный рекорд!
@ai_newz
Обычно все как-то в xx:59. Это мой личный рекорд!
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM