эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Эпичных видео про статьи — это то, что нам не хватало. Смотреть со звуком!

Трудно переоценить влияние работы "Attention is all you need" на развитие области в последние годы. Статья всего лишь набрала 109,160 цитирований, и аттеншн слои используются всего лишь почти в каждой современной архитектуре.

@ai_newz
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Как ускорить диффузию ч2 - Samplers & Low-level optimizations

Продолжаем серию постов про основные методы для ускорения диффузионных моделей. [Ссылка на часть 1].

Optimized Sampling Efficiency by new samplers:
Есть подходы на основе численных методов, которые позволяют более эффективно решать дифференциальное уравнение, задающее траекторию обратной диффузии (это когда мы из шума движемся к картинке).
STSP: Sampling with splitting numerical methods
В эту категорию тоже можно отнести всякие замысловатые солверы, такие как DDIM, DPM, PNDM, PLMS, UniPC [пост].
Итеративный метод Пикарда, который позволяет распараллелить семплинг, ценой больших вычислений [пост].

Low-level optimizations:
Профайлером анализируем узкие места в сети и переписываем отдельные операции на CUDA и вручную оптимизируем и фьюзим кернелы. Тут общие советы трудно давать, все зависит от вашей архитектуры.
FlashAttention-2 - ускоряет flash-attention блоки, которые являются одними из самых прожорливых по ресурсам в архитектуре Unet, широко используемой в диффузиях.

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Челик провел любопытное сравнение между трекингом рук в Apple Vision Pro и Quest 3.

На голову надел AVP, а на шею нацелил Quest 3, визуализировал кипойнты и склеил два видео-стрима, которые выдаются в режиме passthrough в обоих девайсах.

Верх: AVP
Низ: Quest 3

Судите сами!

Кстати, команда, которая занимается трекингом есть и в Цюрихе, сидят недалеко от меня.

@ai_newz
🔥Stable Diffusion 3 на подходе!

Stability.ai наконец публично анонсировали то, о чем я упоминал в этом посте.

Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.

- За счет этого модель умеет круто генерить текст.

- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.

- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно на линейных траекториях между шумом и реальными картинками.

Статья
Вэйтлист

@ai_newz
Еще генераций от Stable Diffusion 3.

Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.

Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.

@ai_newz
Инженерные грейды в Big Tech (ч1)

Меня часто спрашиваю про грейды в Big Tech компаниях. В MAANG и прочих Биг-Техах существует четка иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Чем выше ваш грейд, тем больший масштаб импакта от вас ожидается, и тем шире должно быть ваше влияние на коллег вокруг, то есть требуется больше лидерских качеств.

В этом посте поговорим только про инженеров (SWE) и иcследователей (RS), которые, как правило, прокачиваются по одной и той же лестнице грейдов.

Система уровней в Meta и в Google считается христоматийной - она у них почти идентичная. Ее мы и рассмотрим.

E3, Junior: Начальный уровень - это джун, которого наняли без опыта после бакалавра или магистратуры. От джуна ожидается выполнять назначенные таски без большой помощи извне и не бояться задавать вопросы, если застрял. В Мете дают 2 года, чтобы запромоутиться с E3 до E4, иначе на выход.

E4, Middle: Средний уровень, на который хайрят после 1-5 лет опыта либо свежих выпускников с PhD. Мидл берет на себя отдельные фичи в проекте (много тасок) и выполняет их с минимальным руководством извне. На этом уровне ставят жесткие рамки в 3 года, чтобы стать E5.

E5, Senior: Это независимая боевая единица в компании, эксперт в своей сфере. Синьор владеет целыми фичами или системами и успешно завершает свои проекты. Это терминальный уровень в том смысле, что на этом уровне можно оставаться до пенсии. Промоушен на E6 никто обещать не может, так как прыжок с E5 на E6 на порядок сложнее чем с E4 на E5.

Про E6+ расскажу в следующем посте.

#bigtechlevels #карьера

@ai_newz
Инженерные грейды в Big Tech (ч2)

Все инженеры глобально делятся на две категории: просто инженеры (E3-E5) и Стафф+ (E6+) инженеры. Тут под инженерами я также имею в виду и сайнтистов - их глобально не отделяют и грейды у них такие же.

Когда в компании говорят про "leadership" роли, то обычно подразумевают именно Стафф+. Количество E6+ инженеров и сайнтистов в компаниях всего примерно 10%-15% .

E6, Staff: С этого уровня начинается новая игра. Стафф обладает исключительным техническим мастерством, имплементирует самые сложные фичи, решает задачи, которые мало кто может решить. Кроме того от него ожидаются еще и серьезные коммуникативные и лидерские качества. Он сам предлагает новые проекты и лидит их, ставит цели своей команде и влияет на другие команды.

E7, Senior Staff: Тут ожидают все тоже самое, что и на E6, но с еще большим импактом и ценностью для организации. Синьор стафф драйвит идеи от появления до реализации, попутно правильно расставляя приоритеты, понимая стратегию и тренды на масштабе всей компании.

E8, Principal Engineer/RS: Ты признанный эксперт в одной или нескольких областях как внутри компании так и за ее пределами. Твои проекты и идеи имеют влияние на всю компанию, а также на людей из твоей сферы в индустрии. В случае с наукой — ты исключительный эксперт, статьи которого узнают на конференциях. Как пример — Kaiming He, автор ResNet, который был где-то на E8-E9, пока не ушел из Меты в MIT.

Сложность перехода на каждый следующий уровень после Синьора (E5) растет экспоненциально, и количество людей на каждом следующем уровне убывает тоже по экспоненте.

Начиная с E6 появляются архетипы инженеров, например "фиксер", "архитектор", "тех лид", "Coding Machine" и другие. Про это поговорим позже. Но если вам любопытно, то подробнее про E6+ можно почитать на staffeng.com, там собраны истории людей на E6+ из разных крупных компаний.

#bigtechlevels #карьера

@ai_newz
Staff Research Scientist: Персональный апдейт

У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.

Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.

До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!

Exciting stuff!

#карьера #мойпуть

@ai_newz