Forwarded from Sinекура
Прошедшую в четверг лекцию курса "Глубокое обучение" долго представлять не надо:
СПбГУ — 2025.10.09 — Self-attention и архитектура трансформера
(слайды и доска на странице курса)
Трансформер — буквально самая главная архитектура нейросетей практически с самого своего появления в 2017 году. В Google Scholar у статьи "Attention is All You Need" уже почти двести тысяч цитирований; это не абсолютный рекорд (есть статьи с сотнями тысяч цитирований про стандартные экспериментальные методы, которые везде потом применялись), но наверняка рекорд за прошедшие неполные восемь лет, и влияние трансформеров в 2025 пока не ослабевает.
В лекции я постарался максимально подробно и не торопясь обсудить всё, что можно было обсудить о самовнимании и архитектуре трансформера: от абстрактно-мотивационной идеи self-attention, приходящей из информационного поиска, до токенизации и позиционных вложений. Многое из того, что будет дальше, — это применения и развития идей этой лекции, так что пропускать её стоит только если вы и так уже всё это хорошо знаете.
СПбГУ — 2025.10.09 — Self-attention и архитектура трансформера
(слайды и доска на странице курса)
Трансформер — буквально самая главная архитектура нейросетей практически с самого своего появления в 2017 году. В Google Scholar у статьи "Attention is All You Need" уже почти двести тысяч цитирований; это не абсолютный рекорд (есть статьи с сотнями тысяч цитирований про стандартные экспериментальные методы, которые везде потом применялись), но наверняка рекорд за прошедшие неполные восемь лет, и влияние трансформеров в 2025 пока не ослабевает.
В лекции я постарался максимально подробно и не торопясь обсудить всё, что можно было обсудить о самовнимании и архитектуре трансформера: от абстрактно-мотивационной идеи self-attention, приходящей из информационного поиска, до токенизации и позиционных вложений. Многое из того, что будет дальше, — это применения и развития идей этой лекции, так что пропускать её стоит только если вы и так уже всё это хорошо знаете.
Forwarded from Sinекура
Начинаю уже запутываться в контенте; столько всего происходит, что даже взятый мной темп по одному посту в день начинает трещать по швам. Тем не менее пока попробую оставаться в этом ритме, и сегодня выберу доклад, публикации которого жду не только я, но и его автор, Александр Панов:
Семинар Markov Lab — 2025.10.08 — AI Scientist
(Слайды на странице семинара)
Александр дал обзор того, как сейчас работают AI-системы, помогающие в научных исследованиях, рассказал о том, что об этом думает его лаборатория в AIRI и в каком направлении она работает. Главная мысль, которую он проводил (насколько я понял), была в том, что успешный AI scientist должен быть в каком-то смысле embodied, то есть должен получить другие модальности непосредственного опыта, не только токены текста и картинок/видео.
Как мне кажется, весьма интересной была и дискуссия после доклада. Мои читатели знают, что AI scientist'ы разного рода — это моя любимая тема, и в этом отношении я настроен очень... хм, хотел сказать "оптимистично", но не уверен, что это правильное слово.) В общем, верю я в AI scientist'ов, и даже в то, что для существенной трансформации всего научного поиска новых мегапрорывов до "AI-Эйнштейнов" совершенно не требуется; на днях выложу ещё один свой недавний доклад об этом, кстати.
Так что поспорили мы знатно; надеюсь, разошлись всё-таки друзьями. :)
Семинар Markov Lab — 2025.10.08 — AI Scientist
(Слайды на странице семинара)
Александр дал обзор того, как сейчас работают AI-системы, помогающие в научных исследованиях, рассказал о том, что об этом думает его лаборатория в AIRI и в каком направлении она работает. Главная мысль, которую он проводил (насколько я понял), была в том, что успешный AI scientist должен быть в каком-то смысле embodied, то есть должен получить другие модальности непосредственного опыта, не только токены текста и картинок/видео.
Как мне кажется, весьма интересной была и дискуссия после доклада. Мои читатели знают, что AI scientist'ы разного рода — это моя любимая тема, и в этом отношении я настроен очень... хм, хотел сказать "оптимистично", но не уверен, что это правильное слово.) В общем, верю я в AI scientist'ов, и даже в то, что для существенной трансформации всего научного поиска новых мегапрорывов до "AI-Эйнштейнов" совершенно не требуется; на днях выложу ещё один свой недавний доклад об этом, кстати.
Так что поспорили мы знатно; надеюсь, разошлись всё-таки друзьями. :)
Forwarded from Love. Death. Transformers.
HF_ULTRASCALE_PLAYBOOK.pdf
10.6 MB
HF книжка по megatron, fsdp и прочему для обучения реально больших моделей
Forwarded from Yandex for Teamleads
Допустим, вы поменяли работу: перешли в другую компанию на руководящую должность или получили новую роль на старом месте. Теперь у вас в подчинении команда со своей историей. У каждого своя жизнь, свои переживания, задачи и вопросы. Одни присматриваются к вам с любопытством, другие — со скепсисом, и все ждут от вас действий. Раньше на вопрос «Что делать?» вам помогал ответить руководитель, а теперь решения должны принимать вы.
При этом любые изменения будут приносить стресс как вам, так и команде. Вопрос в том, как минимизировать количество этого стресса. Сделать это можно с помощью фреймворка SCARF. Он позволит оценить, как ваши решения влияют на пять ключевых социальных аспектов в команде: статус, ясность, автономность, принадлежность и честность.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dataism
Говорят, что врать не хорошо, но я твердо убеждена
Конечно, еще все зависит от того, в какой позиции находишься: в слабой или сильной.
Кто точно в слабой позиции?
- джуны с маленьким опытом работы
- кого сократили
- у кого маленькая зарплата и он ищет как ее апнуть
- тот, кто хочет прокачаться в чем-то
То есть любая нужда (опыт/деньги/ипотека и тд), которая толкает на поиск работы, приводит тебя в слабую позицию.
В противном случае, поздравляю, ты выиграл эту жизнь и можешь позволить себе не прогибаться под изменчивый мир и врать нет смысла, потому что ты хочешь реально найти место по душе.
Основная же задача человека в слабой позиции - устроиться на приемлемую работу.
В совсем редфлажные компании, конечно, не стоит идти, но есть средние компании и задачи, с которыми вполне справлялся бы, но можешь получить реджект по всякой ерунде.
И вот чтобы избежать этого, нужно врать, но врать правильно.
Вообще, есть два
1) в своем опыте
2) в своей мотивации
Еще нужно учитывать в какой момент происходит вранье (разница в степени наглости вранья):
1) на этапе созвона с рекрутером
2) на техническом/поведенческом этапе
3) выкатка оффера (но эта тема для отдельного поста, сконцентируемся на первых двух)
На этапе созвона с рекрутером:
Цель простая - сконвертироваться в техническое собеседование и тут все средства хороши.
Нет опыта работы с Tableau? Пофиг, говори, что есть, просто перед выходом на работу разберешься.
Раньше действовало негласное правило, что если твое резюме на 60-70% совпадает с описанием вакансии, то все ок, тебя все равно рассмотрят.
Сейчас оно больше не работает.
Должен быть 100% мэтч, если не хочешь услышать «ой, а мы ищем спеца с Tableau, другие биайки нам не подходят».
И ты ж не докажешь этому рекрутеру, что его Tableau изучается за 2 недели спокойно.
На техническом этапе:
Да, они обязательно должны быть в CV, если их якобы нет (хотя в реальности это точно не так), то грамотно натяни сову на глобус и будь готов ответить за каждую фразу в резюме.
Четко и уверенно говорим: да, работал с инструментом/проводил эксперименты и тд.
Без всяких «небольшой/мало/редко» и тд.
Это работа нанимающего проверить твой уровень знаний на собесе.
Если ты скажешь, что ненавидишь говнопроцессы (а в каждой 1ой компании именно они родимые), то ты сразу получишь минус.
Отдельно вынесу пункт про мотивацию.
Про это у тебя будут спрашивать на всех этапах.
Мой совет: НИКОГДА НЕ ГОВОРИ О СВОИХ ИСТИННЫХ НАМЕРЕНИЯХ.
Лучше отвечай общей фразой «про новые возможности/проекты и мырмырмыр».
Не говори, что хочешь в чем-то прокачаться на новом месте, ну, например в а/б тестах или получить больше опыта в e-comm сфере.
Тогда у нанимающих сразу две опции:
- отказать, потому что у тебя мало опыта в проведении тестов (хотя на собесе ты все четко ответил и знаешь процесс от и до)
- отказать, потому что у компании нет таких задач и они за вас решили, что вам будет скучно у них
Вспоминаем, что находимся в слабой позиции и как бы хочется все же получить эту работу, а уже потом на месте разобраться нравится/не нравится.
А еще, если нанимающий и рекрутер заливают вам в уши, что их компания рада предоставить возможность прокачаться в чем-то, то не верьте, это уже ложь с их стороны.
99% компаний хотят готового специалиста, никакого поля для развития большинство из них не предоставляет.
Вот такая анатомия.
А что бы вы добавили/убрали из советов?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from EasyData
Привет, друзья!
Сегодня поговорим про Numba - инструмент, который превращает обычный Python-код в "почти C" по скорости🏃♂️
Numba - это JIT-компилятор (Just-In-Time) для Python. Если вкратце, то он анализирует функции и компилирует их в машинный код прямо во время исполнения. То есть, вместо интерпретируемого Python код исполняется как скомпилированный.
Воспользоваться возможностями Numba крайне легко - нужно просто добавить декоратори всё! 🧑💻
Но пара нюансов всё же есть:
➡️ Во-первых, не все операции могут быть ускорены таким способом. Общий рецепт таков: "чем проще и численно интенсивнее функция, тем лучше". Вот несколько типичных примеров, которые хороши для Numba:
1. численные циклы (циклы for, while)
2. операции с массивами numpy
3. алгоритмы оптимизации, матричные вычисления
4. генерация чисел и математические функции (sin, exp, sqrt, и т.д.)
5. фильтрация, агрегация и другие различные манипуляции над массивами
6. простые симуляции (например, метод Монте-Карло)
➡️ А во-вторых, при первом запуске функция с Numba может работать даже медленнее обычной Python-версии🙂 Всё потому, что в первый раз Numba не просто выполняет код, а сначала компилирует его в машинный код - и это занимает время. Но уже со второго вызова скомпилированный вариант готов и работает в разы быстрее, как настоящий нативный код.
А насколько быстрым получается код с добавлением Numba - смотрите на скринах:) Замеры проведены на втором запуске😉
Документация библиотеки +:
➡️ с список Python-операций, которые могут быть ускорены
➡️ с аналогичный список для Numpy-функций
Хорошей недели и гармоничных распределений!☀️
#python@data_easy
Сегодня поговорим про Numba - инструмент, который превращает обычный Python-код в "почти C" по скорости
Numba - это JIT-компилятор (Just-In-Time) для Python. Если вкратце, то он анализирует функции и компилирует их в машинный код прямо во время исполнения. То есть, вместо интерпретируемого Python код исполняется как скомпилированный.
Воспользоваться возможностями Numba крайне легко - нужно просто добавить декоратор
@njit к функции,
@njit
def sigmoid_numba(x):
return 1 / (1 + np.exp(-x))
Но пара нюансов всё же есть:
1. численные циклы (циклы for, while)
2. операции с массивами numpy
3. алгоритмы оптимизации, матричные вычисления
4. генерация чисел и математические функции (sin, exp, sqrt, и т.д.)
5. фильтрация, агрегация и другие различные манипуляции над массивами
6. простые симуляции (например, метод Монте-Карло)
А насколько быстрым получается код с добавлением Numba - смотрите на скринах:) Замеры проведены на втором запуске😉
Документация библиотеки +:
Хорошей недели и гармоничных распределений!
#python@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM