Forwarded from max.sh
Дошли руки прочитать пост про LoRA от Thinking Machines и Джона Шульмана (co-founder OpenAI; у него в личном блоге тоже есть интересные заметки, например, зашла такая: An Opinionated Guide to ML Research).
Главный посыл в том, что LoRA вполне может тягаться по качеству с фулл-файнтюном под новую задачу, если обучать адаптеры правильно:
*датасет для целевой задачи имеет small-to-medium размер;
*у адаптера достаточно ёмкости, и LoRA применяется не только к attention-матрицам, но и к MLP- и MoE-компонентам (в литературе же все еще популярен первый вариант);
*гиперпараметры подобраны корректно, в частности, большой batch size негативно влияет на сходимость;
*RL-тюнинг с LoRA-адаптерами работает так же хорошо, как и фулл-файнтюн.
В 2024 году, когда я ещё работал в Амазоне, мы обучали мультимодальные LLM, которые умели работать с текстом, изображениями и речью. Отдельно стояла задача поэкспериментировать: можно ли адаптировать модель под ситуации, где требуется эффективный файнтюн, чтобы заскейлить модальность. В качестве тестовой выбрали задачу Voice Cloning: есть N минут речи спикера (N варьируется от минут до часов), и хочется научиться клонировать его голос (тембр, интонацию, акцент, просодию). Задача идеальная: есть потенциальная выгода для бизнеса здесь и сейчас( например, озвучивание аудиокниг), а файнтюнить веса базовой модели каждый раз под новый голос — совсем не вариант. Поэтому всем было интересно посмотреть, что получится.
По большому счёту, мы прошли тот же путь экспериментов, что и команда Шульмана: перебирали гиперпараметры обучения, ранги, слои, в которых вставлять адаптеры, и веса, к которым их применять. Выводы сильно коррелировали: большой batch оказывает вредное влияние, а адаптеры нужно применять в первую очередь к FC-слоям трансформера. В итоге получили адаптируемый рецепт под разное количество обучающих данных.
Качество voice cloning оказалось достаточным для прода: реплики были в разы стабильнее, чем zero-shot voice cloning, и не уступали фулл-тюну (бэйзлайн), оставаясь при этом легко масштабируемыми, по крайней мере, с точки зрения ресерча. С точки зрения продакшена же адаптеры не достаются бесплатно (есть эффект на latency, плюс интеграция десятков тысяч адаптеров отдельная инфраструктурная задача). Но это уже другая история.
Успех эксперимента был моментальным и в сентябре того же года начались активные пилоты. Инициативу расширили и наняли отдельную команду, чтобы развивать именно этот продукт. Многих запромоутили или дали хороший бонус.
Также должна была выйти статья, чтобы зафиксировать эффективность метода LoRA для задачи voice cloning. Увы, вот она уже она утонула в потоке бюрократии и более глобальных перестановок в компании.
Главный посыл в том, что LoRA вполне может тягаться по качеству с фулл-файнтюном под новую задачу, если обучать адаптеры правильно:
*датасет для целевой задачи имеет small-to-medium размер;
*у адаптера достаточно ёмкости, и LoRA применяется не только к attention-матрицам, но и к MLP- и MoE-компонентам (в литературе же все еще популярен первый вариант);
*гиперпараметры подобраны корректно, в частности, большой batch size негативно влияет на сходимость;
*RL-тюнинг с LoRA-адаптерами работает так же хорошо, как и фулл-файнтюн.
В 2024 году, когда я ещё работал в Амазоне, мы обучали мультимодальные LLM, которые умели работать с текстом, изображениями и речью. Отдельно стояла задача поэкспериментировать: можно ли адаптировать модель под ситуации, где требуется эффективный файнтюн, чтобы заскейлить модальность. В качестве тестовой выбрали задачу Voice Cloning: есть N минут речи спикера (N варьируется от минут до часов), и хочется научиться клонировать его голос (тембр, интонацию, акцент, просодию). Задача идеальная: есть потенциальная выгода для бизнеса здесь и сейчас( например, озвучивание аудиокниг), а файнтюнить веса базовой модели каждый раз под новый голос — совсем не вариант. Поэтому всем было интересно посмотреть, что получится.
По большому счёту, мы прошли тот же путь экспериментов, что и команда Шульмана: перебирали гиперпараметры обучения, ранги, слои, в которых вставлять адаптеры, и веса, к которым их применять. Выводы сильно коррелировали: большой batch оказывает вредное влияние, а адаптеры нужно применять в первую очередь к FC-слоям трансформера. В итоге получили адаптируемый рецепт под разное количество обучающих данных.
Качество voice cloning оказалось достаточным для прода: реплики были в разы стабильнее, чем zero-shot voice cloning, и не уступали фулл-тюну (бэйзлайн), оставаясь при этом легко масштабируемыми, по крайней мере, с точки зрения ресерча. С точки зрения продакшена же адаптеры не достаются бесплатно (есть эффект на latency, плюс интеграция десятков тысяч адаптеров отдельная инфраструктурная задача). Но это уже другая история.
Успех эксперимента был моментальным и в сентябре того же года начались активные пилоты. Инициативу расширили и наняли отдельную команду, чтобы развивать именно этот продукт. Многих запромоутили или дали хороший бонус.
Также должна была выйти статья, чтобы зафиксировать эффективность метода LoRA для задачи voice cloning. Увы, вот она уже она утонула в потоке бюрократии и более глобальных перестановок в компании.
Forwarded from Sinекура
А в курсе глубокого обучения в прошлый четверг обсуждали механизмы внимания:
СПбГУ — 2025.10.02 — Состязательные примеры и механизмы внимания
(слайды и доска на странице курса)
Начали с состязательных примеров — ну тех самых, которые из панды делают гиббона, рояль или что угодно другое маленьким шумом.
А потом перешли к понятию внимания; это очень интересная штука и с точки зрения нейробиологии (хотя там я мало что понимаю), и, как выясняется, с точки зрения искусственных нейросетей. Начали с первых работ о внимании (Larochelle, Hinton, 2010, например), потом обсудили рекуррентные модели внимания и где там возникает RL, а потом перешли к уже более современным архитектурам: encoder-decoder with attention вроде Show, Attend, and Tell.
В этот раз до self-attention не дошли, но на следующей лекции отступать будет уже некуда, будем о трансформерах говорить.)
СПбГУ — 2025.10.02 — Состязательные примеры и механизмы внимания
(слайды и доска на странице курса)
Начали с состязательных примеров — ну тех самых, которые из панды делают гиббона, рояль или что угодно другое маленьким шумом.
А потом перешли к понятию внимания; это очень интересная штука и с точки зрения нейробиологии (хотя там я мало что понимаю), и, как выясняется, с точки зрения искусственных нейросетей. Начали с первых работ о внимании (Larochelle, Hinton, 2010, например), потом обсудили рекуррентные модели внимания и где там возникает RL, а потом перешли к уже более современным архитектурам: encoder-decoder with attention вроде Show, Attend, and Tell.
В этот раз до self-attention не дошли, но на следующей лекции отступать будет уже некуда, будем о трансформерах говорить.)
Forwarded from Sinекура
Прошедшую в четверг лекцию курса "Глубокое обучение" долго представлять не надо:
СПбГУ — 2025.10.09 — Self-attention и архитектура трансформера
(слайды и доска на странице курса)
Трансформер — буквально самая главная архитектура нейросетей практически с самого своего появления в 2017 году. В Google Scholar у статьи "Attention is All You Need" уже почти двести тысяч цитирований; это не абсолютный рекорд (есть статьи с сотнями тысяч цитирований про стандартные экспериментальные методы, которые везде потом применялись), но наверняка рекорд за прошедшие неполные восемь лет, и влияние трансформеров в 2025 пока не ослабевает.
В лекции я постарался максимально подробно и не торопясь обсудить всё, что можно было обсудить о самовнимании и архитектуре трансформера: от абстрактно-мотивационной идеи self-attention, приходящей из информационного поиска, до токенизации и позиционных вложений. Многое из того, что будет дальше, — это применения и развития идей этой лекции, так что пропускать её стоит только если вы и так уже всё это хорошо знаете.
СПбГУ — 2025.10.09 — Self-attention и архитектура трансформера
(слайды и доска на странице курса)
Трансформер — буквально самая главная архитектура нейросетей практически с самого своего появления в 2017 году. В Google Scholar у статьи "Attention is All You Need" уже почти двести тысяч цитирований; это не абсолютный рекорд (есть статьи с сотнями тысяч цитирований про стандартные экспериментальные методы, которые везде потом применялись), но наверняка рекорд за прошедшие неполные восемь лет, и влияние трансформеров в 2025 пока не ослабевает.
В лекции я постарался максимально подробно и не торопясь обсудить всё, что можно было обсудить о самовнимании и архитектуре трансформера: от абстрактно-мотивационной идеи self-attention, приходящей из информационного поиска, до токенизации и позиционных вложений. Многое из того, что будет дальше, — это применения и развития идей этой лекции, так что пропускать её стоит только если вы и так уже всё это хорошо знаете.
Forwarded from Sinекура
Начинаю уже запутываться в контенте; столько всего происходит, что даже взятый мной темп по одному посту в день начинает трещать по швам. Тем не менее пока попробую оставаться в этом ритме, и сегодня выберу доклад, публикации которого жду не только я, но и его автор, Александр Панов:
Семинар Markov Lab — 2025.10.08 — AI Scientist
(Слайды на странице семинара)
Александр дал обзор того, как сейчас работают AI-системы, помогающие в научных исследованиях, рассказал о том, что об этом думает его лаборатория в AIRI и в каком направлении она работает. Главная мысль, которую он проводил (насколько я понял), была в том, что успешный AI scientist должен быть в каком-то смысле embodied, то есть должен получить другие модальности непосредственного опыта, не только токены текста и картинок/видео.
Как мне кажется, весьма интересной была и дискуссия после доклада. Мои читатели знают, что AI scientist'ы разного рода — это моя любимая тема, и в этом отношении я настроен очень... хм, хотел сказать "оптимистично", но не уверен, что это правильное слово.) В общем, верю я в AI scientist'ов, и даже в то, что для существенной трансформации всего научного поиска новых мегапрорывов до "AI-Эйнштейнов" совершенно не требуется; на днях выложу ещё один свой недавний доклад об этом, кстати.
Так что поспорили мы знатно; надеюсь, разошлись всё-таки друзьями. :)
Семинар Markov Lab — 2025.10.08 — AI Scientist
(Слайды на странице семинара)
Александр дал обзор того, как сейчас работают AI-системы, помогающие в научных исследованиях, рассказал о том, что об этом думает его лаборатория в AIRI и в каком направлении она работает. Главная мысль, которую он проводил (насколько я понял), была в том, что успешный AI scientist должен быть в каком-то смысле embodied, то есть должен получить другие модальности непосредственного опыта, не только токены текста и картинок/видео.
Как мне кажется, весьма интересной была и дискуссия после доклада. Мои читатели знают, что AI scientist'ы разного рода — это моя любимая тема, и в этом отношении я настроен очень... хм, хотел сказать "оптимистично", но не уверен, что это правильное слово.) В общем, верю я в AI scientist'ов, и даже в то, что для существенной трансформации всего научного поиска новых мегапрорывов до "AI-Эйнштейнов" совершенно не требуется; на днях выложу ещё один свой недавний доклад об этом, кстати.
Так что поспорили мы знатно; надеюсь, разошлись всё-таки друзьями. :)
Forwarded from Love. Death. Transformers.
HF_ULTRASCALE_PLAYBOOK.pdf
10.6 MB
HF книжка по megatron, fsdp и прочему для обучения реально больших моделей
Forwarded from Yandex for Teamleads
Допустим, вы поменяли работу: перешли в другую компанию на руководящую должность или получили новую роль на старом месте. Теперь у вас в подчинении команда со своей историей. У каждого своя жизнь, свои переживания, задачи и вопросы. Одни присматриваются к вам с любопытством, другие — со скепсисом, и все ждут от вас действий. Раньше на вопрос «Что делать?» вам помогал ответить руководитель, а теперь решения должны принимать вы.
При этом любые изменения будут приносить стресс как вам, так и команде. Вопрос в том, как минимизировать количество этого стресса. Сделать это можно с помощью фреймворка SCARF. Он позволит оценить, как ваши решения влияют на пять ключевых социальных аспектов в команде: статус, ясность, автономность, принадлежность и честность.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dataism
Говорят, что врать не хорошо, но я твердо убеждена
Конечно, еще все зависит от того, в какой позиции находишься: в слабой или сильной.
Кто точно в слабой позиции?
- джуны с маленьким опытом работы
- кого сократили
- у кого маленькая зарплата и он ищет как ее апнуть
- тот, кто хочет прокачаться в чем-то
То есть любая нужда (опыт/деньги/ипотека и тд), которая толкает на поиск работы, приводит тебя в слабую позицию.
В противном случае, поздравляю, ты выиграл эту жизнь и можешь позволить себе не прогибаться под изменчивый мир и врать нет смысла, потому что ты хочешь реально найти место по душе.
Основная же задача человека в слабой позиции - устроиться на приемлемую работу.
В совсем редфлажные компании, конечно, не стоит идти, но есть средние компании и задачи, с которыми вполне справлялся бы, но можешь получить реджект по всякой ерунде.
И вот чтобы избежать этого, нужно врать, но врать правильно.
Вообще, есть два
1) в своем опыте
2) в своей мотивации
Еще нужно учитывать в какой момент происходит вранье (разница в степени наглости вранья):
1) на этапе созвона с рекрутером
2) на техническом/поведенческом этапе
3) выкатка оффера (но эта тема для отдельного поста, сконцентируемся на первых двух)
На этапе созвона с рекрутером:
Цель простая - сконвертироваться в техническое собеседование и тут все средства хороши.
Нет опыта работы с Tableau? Пофиг, говори, что есть, просто перед выходом на работу разберешься.
Раньше действовало негласное правило, что если твое резюме на 60-70% совпадает с описанием вакансии, то все ок, тебя все равно рассмотрят.
Сейчас оно больше не работает.
Должен быть 100% мэтч, если не хочешь услышать «ой, а мы ищем спеца с Tableau, другие биайки нам не подходят».
И ты ж не докажешь этому рекрутеру, что его Tableau изучается за 2 недели спокойно.
На техническом этапе:
Да, они обязательно должны быть в CV, если их якобы нет (хотя в реальности это точно не так), то грамотно натяни сову на глобус и будь готов ответить за каждую фразу в резюме.
Четко и уверенно говорим: да, работал с инструментом/проводил эксперименты и тд.
Без всяких «небольшой/мало/редко» и тд.
Это работа нанимающего проверить твой уровень знаний на собесе.
Если ты скажешь, что ненавидишь говнопроцессы (а в каждой 1ой компании именно они родимые), то ты сразу получишь минус.
Отдельно вынесу пункт про мотивацию.
Про это у тебя будут спрашивать на всех этапах.
Мой совет: НИКОГДА НЕ ГОВОРИ О СВОИХ ИСТИННЫХ НАМЕРЕНИЯХ.
Лучше отвечай общей фразой «про новые возможности/проекты и мырмырмыр».
Не говори, что хочешь в чем-то прокачаться на новом месте, ну, например в а/б тестах или получить больше опыта в e-comm сфере.
Тогда у нанимающих сразу две опции:
- отказать, потому что у тебя мало опыта в проведении тестов (хотя на собесе ты все четко ответил и знаешь процесс от и до)
- отказать, потому что у компании нет таких задач и они за вас решили, что вам будет скучно у них
Вспоминаем, что находимся в слабой позиции и как бы хочется все же получить эту работу, а уже потом на месте разобраться нравится/не нравится.
А еще, если нанимающий и рекрутер заливают вам в уши, что их компания рада предоставить возможность прокачаться в чем-то, то не верьте, это уже ложь с их стороны.
99% компаний хотят готового специалиста, никакого поля для развития большинство из них не предоставляет.
Вот такая анатомия.
А что бы вы добавили/убрали из советов?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM