max.sh

Solutions Architect в ByteDance, Дубай. Отзыв на Интервью.

Новая история про собеседования, самое то для пятницы.
Буду рад видеть свежие от читателей, гугл форма тут.
Все отзывы по тегу #интервью

спойлер: тотал комп в оффере отличный, дочитайте до конца

➡

Ник автора в тг - N/A

➡

Название компании, можете указать ссылку или коротко описать что за место - ByteDance

➡

Расскажите про свой бэкграунд - 7YOE, Engineering & Solution Architecture (стартапы), никаких FAANG'ов в резюме. Своя компания Engineering & Technical Consulting & Solution Architecture (6 years), AI Content generation & workflows (1 year) + продажа различного софта онлайн.

➡

Как подались на вакансию - Рекрутер на LinkedIn сам написал (его потом уволили, хех)

➡

Субъективно Сложность процесса по 10 бальной шкале - 7

➡

Когда начали процесс - Август 2025

➡

Когда закончили процесс - Ноябрь 2025

➡

Позиция, на которую собеседовались - Solutions Architect, Enterprise AI, MaaS (models as a service)

➡

Грейд (если известно) - N/A, 2-2 или 3-1 скорее всего (от автора канала: в комментариях описали разбивку грейдов)

➡

Локация вакансии - Дубай

🔥

Расскажите про этапы собеседований

0 - HR Screening,
1 - Solution Architecture Technical Chat (AI Content generation),
2 - Solution Architecture Technical Interview (Experience assessment and use cases),
3 - Panel interview with Sales and General Manger (Experience assessment and use cases),
4 - Technical Presentation for Sales team and Hiring manager,
5 - Offer and follow-up conversations on expectations (my initiative).

⏺ Что понравилось:
Понравилось, что не было тупых вопросов (типа как Amazon leadership задротство, бррр). Все интервьюверы задавали хорошие глубокие вопросы про GTM. Ожидания проговаривались.
ByteDance - масштабная контора - у них свой большой cloud и свои топ модели (видео, аудио и т.п.) - много клиентов, нужно строить AI солюшны, Models as a service продвигать. В 2026 собираются порвать многих акул рынка.

⏺Что не понравилось:
Был Лондон, а стал Дубай, но решил процесс довести до конца. После раундов часто долго не было фидбека. Оффер высылали неделю.

➡

Итоги собеседования, например оффер или отказ, или что-то другое: Получил оффер. В итоге отказался. Увы, тайминг не подходящий. Нужно быть в ЮК

➡

Информация про Total Compensation: OTE: 260k GBP / year, 180k - base (tax free cash, т.к. Дубай), 5-6 зарплат - бонус (каждый квартал), 10k GBP - стоки (да, смешно). В Дубайских тугриках OTE: ~1.2-1.3M AED (20k GBP в месяц кэшом на руки). Офис 4/1.

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥22🤯11❤4👍3🆒1

2.5K viewsedited 12:19

max.sh

Послушал очень плотное по контенту и интересное для размышлений выступление с недавнего AI Engineer митапа от Dexter Horthy (фаундер YC стартапа, много выступает с докладами про Context Engineering для кодинг агентов)

Смотреть тут

⚫️Одна мысль про так называемую "dumb zone". Контекстное окно агента (Claude Code, Codex, ...) стоит держать заполненным только до определенного размера. В докладе автор эмперически говорит о 40%. Как только контекстное окно переваливает через этот рубеж, агент быстро начинает тупеть.

Учитывая MCP инструменты, кастомные правила, всякие манифесты типа CLAUDE.md и входы/выходы размышлений агентов, окно заполняется очень быстро.

Один способ побороть это, делегировать выполнение кусков задачи другим агентам (так называемые sub agents). Они будут выполнять задачу от главного агента, в своей копии контекстного окна, никак не засоряя основное, по итогу работы вернув в главное контекстное окно сжатое эффективное представление.

Другой подход – это agent skills, который активно продвигают Антропики.

⚫️Автор продвигает подход RPI (Research Planing Implementation) суть которого в том, что агент должен решать задачу (особенно если она сложная и подразумевает работу в уже существующей кодовой базе) в несколько этапов. Каждый этап может выполняться отдельным агентом или серией агентов. Исходя из названия подхода, в целом понятно, что должен делать каждый агент: делать поиск по кодовой базе в поисках актуального контекста, суммаризировать все это в план действий, а затем уже переходить к написанию кода через план.

Предлагается еще ввести Human Review на каждой из стадий. Потому что процесс принятия решений пока еще нельзя полностью аутсорсить агентам. Ревью так или иначе нужно. Автор подкрепляет свою ветку красивыми диаграммами вида: Одна плохая строчка в CLAUDE.md -> десятки тысяч плохого кода; Плохой рисерч агента –> потенциально сотни строк плохого кода; Плохой план исполнения -> потенциально десятки строк плохого кода.

⚫️Ну и напоследок, из-за того, что сломать агента на масштабе больших рефакторингов и кодовых изменений крайне просто, у инженеров разной сеньорности со временем формируется полярное отношение к AI агентам. Пока VP of Eng ломают голову, как его внедрять на уровне организаций и плавно переходят к ненависти AI технологий (неоднократно слышал такой фидбэк лично от разных матерых разрабов), более джуновые инженеры, оперирующие на уровне фичей, обожают все новые технологии, потому что это бустит продуктивность.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍13❤7🆒1

1.9K viewsedited 13:30

max.sh

📱

канал AI Engineer

В посте выше я ссылался на доклад с AIE митапа. Так вот, у них есть болшой YT канал с очень годным контентом от передовых лаб и AI стартапов.

Канал тут.

Выступления все в среднем по 20 минут и крайне прикладные. Тут вы никогда не увидите формул, глубоких деталей методов или какие-то строгие специфичные eval-ы. Но можно зацепить много идей, посмотреть что делают в индустрии, набраться ключевых слов и ссылок и потом пойти копать дальше.

Большой дисклеймер: Да, крутого контента много, но еще больше бесполезного маркетингового мусора, которое слово в слово дублирует какой-нибудь релиз. Благо, видео короткие, можно быстро отсеять.

Мне, например, очень понравились доклады про разный RL, многие совсем свежие:

1. OpenAI про Agent RL, во второй части доклада рассказывают про пилоты с реальными кастомерами
2. Про эффективный RL, где боттленеки обучения, где простаивают GPU
3. про обучение своих агентов с помощью RL, вот тут вообще кайфовый case study от сбора данных до reward-hacking-ов

Happy Learning!

—
кстати, митапы проходят не только в SF, но и в других локациях. В этом году состоялся первый в Париже и несколько прошло в Лондоне. Здесь все скромнее по масштабу, но все равно очень интересно. Запланировал выступить в следующем году на таком.

#образование

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Agent Reinforcement Fine Tuning – Will Hang & Cathy Zhou, OpenAI

Deep dive into OpenAI's approach to reinforcement fine-tuning for code models.

https://x.com/willhang_
https://x.com/cathyzhou

AIE is coming to London and SF! see dates and sign up to be notified of sponsorships, CFPs, and tickets: https://ai.engineer
…

4🔥13👍7❤5⚡2😍1🆒1

2.15K views11:27

max.sh

💻

OpenAI, Solutions Architect, Generative AI Deployment, London. Отзыв на Интервью.

Сегодня в историях про собесы уникальное пополнение. Рассказа про OpenAI.

Буду рад видеть свежие от читателей, гугл форма тут.
Все отзывы по тегу #интервью

➡

Ник автора в тг - N/A

➡

Название компании, можете указать ссылку или коротко описать что за место - OpenAI

➡

Расскажите про свой бэкграунд - Senior MLE at Microsoft (customer solutions), 7 лет SWE, 7 лет ML/DS. Так или иначе с кастомерами. В целом хотелось меньше кастомеров и больше глубоких сложных задач.

➡

Как подались на вакансию - Написал сам рекрутер в LinkedIn (позиции тогда публично не было - была похожая в US)

➡

Субъективно Сложность процесса по 10 бальной шкале - 5

➡

Когда начали процесс - октябрь 2025

➡

Когда закончили процесс - декабрь 2025

➡

Позиция, на которую собеседовались - Solutions Architect, Strategics (Post Sales) (https://openai.com/careers/solutions-architect-generative-ai-deployment-london-uk/).

Дизайнить и деливерить LLM-based солюшны в EMEA, общаться со стейкхолдерами на стороне кастомера, с сейлзами, продукт-тимой и рисёрчерами.

До 3 дней в неделю могли быть из офиса клиента (по словам рекрутера), скорее 1-2 дня по словам Hiring Manager (и что компенсация тревела щедрая)

➡

Грейд (если известно) - N/A

➡

Локация вакансии - London, UK

🔥

Расскажите про этапы собеседований

1) Созвон с рекрутером

2) Screening с менеджером (30 мин) - опыт, технологии, ожидания от позиции

3) Техническое задание на кодинг (домашнее на 5 business days) - выслали сразу после менеджера, а у меня отпуск на 2 недели был на следующий день, предложила заменить задачу по возвращении - сказали норм, когда вернусь.

Сделать рабочий солюшн, диаграмму, документацию, next steps.
Тут я начала на 2 недели позже, дня 3 бизнесовых потратила, кодила 1.5 вечера, потом они неделю проверяли.

4) 4 интервью пачкой (в 1 день должны были, но одно перенеслось):

- Partnering with Sales (30 мин) - рассказать про разные конфликтные ситуации, когда продали что-то, а тебе делать, другие behavioural аспекты

- Deep Dive with Manager (30 мин) - опыт, cultural fit, про миссию, про мои цели

- Case (Being a Solutions Architect) (45 мин) - прошли по задаче от нечёткого определения задачи (LLM-based солюшн) через мои вопросы и их уточнения до имплементации, evaluation, это было парное интервью - второй интервьюер учился-шедоуил.

- Coffee Chat with peer (тут мне обещали, что я буду задавать вопросы, но чувак - очень классный! - кажется, что-то перепутал и распрашивал меня всякое техническое, на мои осталось 5 минут).

Отказ и фидбек дали через ещё неделю.

⏺ Что понравилось:

Все, с кем разговаривала - приятные, профессиональные интервьюеры, быстрые ответы на вопросы от них и координатора, минимальный стресс, фидбек-сессия с HR

⏺Что не понравилось:

Несоответсвие Coffee Chat объявленному наполнению, я думала я перепутала (и на стрессе где-то тупила явно), но потом извинились, сказали, интервьюер увлёкся вот и.

Довольно много времени заняло (у меня очень мало опыта в интервью, впрочем - третье в жизни, может, это норма)

Кредиты на тех. задание начислить не смогли ("что-то сломалось"), просили купить самой и зареимбёрсить - напомнила об этом после отказа, тут же выслали ссылку, ещё через 5 дней заревьюили и выслали.

➡

Итоги собеседования, например оффер или отказ, или что-то другое:
Отказ. Без детального фидбека, но с созвоном с HR. Посчитали, что ответы по case study для общения с бизнес-кастомерами должны быть почётче, а технический опыт отличный.
Думаю, что я не выказывала сильного энтузиазма работать с кучей заказчиков, да и напрямую спрашивала про транзишны внутри компании и возможность исходно работать над более сложными задачами, чтобы туда двигаться.
Обещали стукнуться, если будут такие позиции и просили меня им тоже писать, если увижу что-то (подписаться на алёрты нет опции).

➡

Информация про Total Compensation: 190k £ Base + Equities

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍15❤6⚡2👻1

3.12K viewsedited 10:05

max.sh

Открыл для себя в этом году Баку. Поездкой очень доволен.

Декабрь не самый сезон для тура сюда, постоянные ветра и в целом серое небо. Но это не помешало получить кучу удовольствия от города.

По моим впечатлениям город интересно балансирует между высокими стеклянными (и довольно однообразными) бизнес застройками в духе любого мегаполиса (Лондон, Дубай, с поправкой на масштаб) и вниманием к истории, природе и винтажу. Старый город и нагорный парк как отдельные шедевры.

И конечно еда! Было очень вкусно. Я обожаю всякую выпечку и пирожки, поэтому каждый день пробовал новые кутабы (азербайджанское ноу-хау, очень тонкие пирожки с начинкой на выбор), хачапури, лаваши.

В общем, и истории много, и красивых мест, и вкусная еда.

❤35👍7🔥6🤩2🆒1

2.66K views15:32

max.sh

Паровые двигатели изобрели в 1700 году. С тех пор их эффективность неизменно росла.

Самый популярный вид транспорта того времени – лошади. И что интересно: первые 120 лет прогресса паровых двигателей никак не повлияли на численность лошадей в США.

А затем произошло резкое изменение. В период примерно с 1930 по 1950 годы около 90% лошадей в Штатах исчезло. К началу нулевых количество лошадей на семейство стало близким к нулю.

Прогресс паровых двигателей был плавным. Но скачок в их эффективности, и как следствие, полный отказ от лошадей оказался стремительным.

К чему вообще здесь лошади? Думаю, параллель с развитием AI-технологий и автоматизацией разных отраслей, включая разработку, углядеть нетрудно.

Один из ресёрчеров из фаундинг-команды Anthropic, Andy Jones, как раз пишет об этом у себя в блоге:
https://andyljones.com/posts/horses.html

Он подкрепляет историческую аналогию личным опытом. В 2024 году, ещё до выхода Claude Sonnet 3.5, значительная часть его работы заключалась в онбординге новых сотрудников и ответах на их вопросы, порядка 4000 вопросов в месяц.
К декабрю их доля заметно сократилась. А ещё через шесть месяцев 80% этой рутины было автоматизировано. В итоге появилась система, которая в сотни раз дешевле человека и легко масштабируется.

На такой ноте заметка заканчивается.

Но в жизни Andy Jones большой AI-евангелист. Коллега по работе училась вместе с ним в Эдинбургском университете, так что была редкая возможность познакомиться ближе. В жизни он с юмором сочетает мысли о невероятной скорости прогресса и неизбежной автоматизации профессий с абсолютной глупостью моделей в некоторых вещах. Одни технологии и профессии уйдут, но придут новые.

Прогресс может быть плавным. Но трансформация стремительной.

Andyljones

Horses

AI progress is steady. Human equivalence is sudden.

🔥17👍9🤔4❤2😁1

2.39K viewsedited 12:54

max.sh

Год подходит к концу, поэтому самое время подводить итоги.

В этом посте разбираю одну из центральных тем блога в этом году: собеседования на ML/Research роли.

⚫️В первой половине года я много собеседовал и понял, что хочется делиться тем, что может помочь соискателям. Так появились эти тексты. Они разные по формату и теме, все субъективные и основаны на личном опыте. А теплые сообщения в личку о пользе текстов только мотивируют стараться ✨

Типы вопросов на собеседованиях про Трансформеры
Подборка ресурсов для изучения RL в контексте LLM
Лонгрид ML Breadth Interview Deep Dive

Как готовиться к Coding Interview
Как готовиться к ML Design Interview
Как готовиться к ML Depth Interview

Рисерч стажировки в биг техе. Часть 1. Как попасть на собеседование
Рисерч стажировки в биг техе. Часть 2. Структура Интервью

⚫️Потом я оказался по другую сторону и начал собеседоваться сам. Собесы – это во многом рандом, поэтому любая информация помогает хоть немного увеличить шансы в этой лотерее. А реальные отзывы других людей так тем более. Я начал собирать истории подписчиков канала и делиться ими здесь. В итоге получилась солидная коллекция интервью-историй за 2025 год.

Все отзывы можно найти по тегу #интервью. А здесь оставлю ссылки на истории в зарубежные компании:

🌐

Research Engineer в Google DeepMind
🍏Senior ML Engineer в Apple Music
💻Performance Engineer в Nvidia, Munich

💻

OpenAI, Solutions Architect, Generative AI Deployment, London

Ⓜ️

Senior ML Engineer в Meta

🖥

Research Fellowship в Anthropic

🛒

Applied Scientist, Amazon

🎧

Senior DL Engineer в Spotify, Personalization, London

Senior ML Engineer в Waymo, Perception Team, California
Solutions Architect в ByteDance, Дубай.
VP of AI ML в J.P. Morgan Chase, London
AI Engineer в Mistral.AI

🔥 Буду рад если поддержите пост репостами или поделитесь с друзьями. И забирайте себе в коллекцию, если готовитесь к новому приключению в следующем году!

Please open Telegram to view this post

VIEW IN TELEGRAM

14👍56❤19🎄10🔥7⚡4❤‍🔥1🆒1

11.1K views13:18

max.sh

А в финальном посте года немного рефлексии по итогам полугода работы в стартапе.

О скорости перемен

Полгода назад ушел из биг теха ~~ловить счастье~~ делать pre-PMF стартап (про первый месяц писал тут). Компания без продукта, но с большим раундом (фаундер уже продал юникорна) в эпоху AI трансформаций == постоянный пивот в новое направление.

Начинали с фреймворка про Spec Driven Development, а сейчас делаем платформу, на которой можно измерять перформанс coding-агентов с разных сторон: насколько хорошо они справляются с задачами в репозитории, умеют ли писать идиоматически приемлемый код (рассказывал о бенчмарке тут). Плюс разные фишки вокруг этого: автогенерация документации, сравнение с другими агентами, context engineering.

После биг теха было сложно привыкнуть к тому, что каждые месяц-два могут выбрасываться не просто идеи и прототипы (там то мы следовали принципу Disagree and Commit 😑), а целое видение компании. И что нужно регулярно погружаться в ресерч совсем новых тем.

Слоган года, который я постоянно слышал от фаундеров стартапов: Побеждают те, у кого хватает ресурсов, чтобы сделать еще один пивот.

Про агентов и программирование

Эволюция профессии происходит стремительно. Это невозможно отрицать.

Еще в начале лета я был плотно вовлечен в написание кода: задаешь направление, а умные IDE помогают. Автокомплитят или реализуют логику на уровне файла. Но почти всегда с правками, потому что что-то не совсем то.

Точка перелома случилась примерно с Sonnet 4.5, когда я закоммитил 500+ строк кода.
В проект, который вижу чуть ли не в первый раз и понимаю в основном на уровне бизнес-логики.
Нужно было срочно сделать конкретную фичу.
Запускаешь и работает как надо.
И выглядит адекватно.
Так оно и было смерджено.

А дальше понеслось. Код руками я почти перестал писать. Все время уходит на оркестрацию агентов, продумывание идей, эксперименты с новыми фичами (типа skills у Claude Code), ~~ведение тг-канала~~. Короче, агентам аутсорсишь исполнение, а сам занимаешься самым интересным – размышлением.

Имхо: без human in the loop на дистанции все равно получается разваливающийся нейрослоп. Но это временно.

Еще одна мысль, на которой себя поймал. Да, прорывы в кодогенерации привели к массовым сокращениям, заменив многие роли (например, чистых фронтендеров). Но при этом тот же прогресс создал и огромное количество новых возможностей: кучу стартапов (включая тот, где работаю и я), позиции вроде Agents Developer, AI Engineer и т.д.

В заключение

Следующий год, думаю, будет еще более интересным и насыщенным: больше открытий, релизов новых моделей, роста адопшена и безумных сделок по покупке компаний.

В таком мире особенно важно не прекращать учиться, качать новые скиллы и заботиться о здоровье (особенно ментальном!).

Спасибо, что читаете!

С Новым годом! 🥂🎄

🍪

Please open Telegram to view this post

VIEW IN TELEGRAM

16🎄48❤15🍾6🔥3⚡2👍2

2.66K viewsedited 12:06

max.sh

Бодро влетаем в новый год. Сегодня про Claude Code Skills.

Пару месяцев назад Антропики добавили концепцию Agent Skills

Skills, если по-простому, это папки с SKILLS.md и любыми вспомогательными файлами/скриптами, которые агент может по необходимости подтягивать в контекст и использовать как «встроенный опыт».

Преимуществ несколько:

1) переиспользуемый контекст. Вы, как пользователь Claude Code, можете создать свои кастомные скиллы и переиспользовать в проекте / внутри организации

2) более эффективное использование контекстного окна LLM. Содержимое навыка будет загружено в контекст модели только если она решит, что уместно использовать скилл, а не будет таскать всю инфу о нем постоянно.

3) открытая экосистема, которая будет расширяться за счет опен соурса и самих Антропиков.

Экосистема действительно разрастается. Вот, например, всеми любимый Hugging Face опубликовали серию своих SKILLS, написанных вручную, чтобы обучить агента файн-тюнить модели (SFT, GRPO, DPO). По итогу это набор гайдлайнов о том, какой инстанс брать для файн-тюна в зависимости от размера модели, как провалидировать, что данные в правильном формате, и так далее.

Ссылка.

А еще, энтузиасты собрали интересный проект – Skills Marketplace. Соскрапили 44K skills с github и прикрутили поисковик. Может быть полезно, если что-то ищете специфичное под фреймворк.

Я на практике пока что успел поиграть с несколькими официальными скиллами от самих Антропиков. Например, с гайдлайнами для дизайна фронтендов.

Из интересного, это то что подключение скилла консистенто запускает у Claude Code режим планирования, в котором он у меня распрашивает, какой веб-стэк я хочу использовать. Без подключенного скилла же, регулярно улетает в поделки на plain HTML/CSS/JS.

Интересно, видно что будет расти и дальше. Пользуемся. 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25👍11⚡4❤3🆒2🙏1👌1

2.44K viewsedited 12:26

max.sh

На ютубе разлетелось видео, в котором стример разбирает якобы слитый собес в Антропик, секция кодинг, на позицию Senior AI engineering, Inference team.

Смотреть тут
Пост на блайнде

Слить такое в сеть мог только сам кандидат. Учитывая, что интервью он прошел, объективно, плохо (для человека с позиционированием себя как 10+ лет опыта разработки на c++ очень плохо), зачем такое выкладывать не очень понятно. Только для пиара. Но его оригинал я не нашел, кстати.

Так что воспринимать контент стоит в любом случае осторожно, с долей скептицизма.

В комментариях к видео (и посту здесь в тг!) пишут, что действительно такой раунд и формат, и задача имеют место быть.

Задача кажется не очень сложная. Конвертировать стак трейс в вектор событий. Что-то на уровне между литкодом и повседневным программированием. Разобраться (не так как кандидат) и решить за час точно можно.

В конце интервью замечательный диалог:

кандидат: How do you compromise speed for safety?

интервьюер: We never compromise on safety.

Сильно.

👍30😁16🤣4🔥2❤1🆒1

2.42K viewsedited 11:15

max.sh

Когда-то давно, во времена учебы в ШАДе, нам читали интенсив по основам архитектуры GPU и разработки на CUDA. Обещали рассказать, как устроены видеокарты и почему они эффективны для машинного обучения. Я тогда дальше model.to('cuda:0') в этом вопросе ничего не знал, поэтому с интересом записался.

Лекции читали разработчики из Nvidia. Да, это было такое время, когда у компании был Московский офис и они периодически нанимали DL-инженеров, а иногда и стажеров (марафон технических раундов и глубоких вопросов на понимание, чтобы побороться за 2 стажерские позиции).

Курс, по моему мнению, получился ужасным. Материал стремительно усложнялся без какой-либо оглядки на аудиторию и тот факт, что ко второй лекции половина слушателей уже отвалилась. Я потерял суть происходящего уже минуте на 20-30 первой лекции, в момент когда термины вида SM, warp schedulers, cuda cores заполняли каждый слайд, а повествование превратилось во внутренний митап для инженеров Nvidia.

Худо-бедно интенсив я закрыл, решая задачи методом проб и ошибок. От курса в голове не осталось почти ничего. Разве что боязнь копаться в деталях работы с GPU.

Позже, уже в 2022-2023 году, модели перестали влазить в память одной ГПУ и нужно было учиться паралелить, оценивать эффективность инфраструктуры в поисках ответа на вопрос: а почему все так медленно? are we compute bound or communication bound? Снова я столкнулся с GPU акселераторами лицом к лицу. Документации от Nvidia было не очень много, так что неподготовленному читателю входить было не просто. Но дело двигалось тем же путем проб и ошибок и общением с коллегами по работе.

А хороших гайдов на понимание все еще не было. Мне кажется их и сейчас не очень много. ( Как и специалистов в этой области. Performance Engineer крайне актуальная роль в области DL на ближайшие годы)

Недавно наткнулся на "книгу" от ребят из DeepMind, они проделали невероятную методологическую работу. И выпустили онлайн-учебник How to Scale Your Model. Центральный предмет книги о том, как учить трансформеры на больших кластерах, арифметику моделей (откуда набегает так много гигабайтов памяти, чтобы сделать один forward pass) и что такое TPU/GPU. К каждой главе идет еще набор квизов, чтобы посчитать что-нибудь руками.

Крайне Рекомендую!

https://jax-ml.github.io/scaling-book/

Edit: в комментариях накидали еще полезных материалов!

jax-ml.github.io

How To Scale Your Model

Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models: how TPUs (and GPUs) work and how they communicate with each other…

10⚡44👍30❤19🔥11🆒1

1.65K viewsedited 15:07

About

Blog

Apps

Platform