Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from max.sh
Дошли руки прочитать пост про LoRA от Thinking Machines и Джона Шульмана (co-founder OpenAI; у него в личном блоге тоже есть интересные заметки, например, зашла такая: An Opinionated Guide to ML Research).

Главный посыл в том, что LoRA вполне может тягаться по качеству с фулл-файнтюном под новую задачу, если обучать адаптеры правильно:

*датасет для целевой задачи имеет small-to-medium размер;
*у адаптера достаточно ёмкости, и LoRA применяется не только к attention-матрицам, но и к MLP- и MoE-компонентам (в литературе же все еще популярен первый вариант);
*гиперпараметры подобраны корректно, в частности, большой batch size негативно влияет на сходимость;
*RL-тюнинг с LoRA-адаптерами работает так же хорошо, как и фулл-файнтюн.

В 2024 году, когда я ещё работал в Амазоне, мы обучали мультимодальные LLM, которые умели работать с текстом, изображениями и речью. Отдельно стояла задача поэкспериментировать: можно ли адаптировать модель под ситуации, где требуется эффективный файнтюн, чтобы заскейлить модальность. В качестве тестовой выбрали задачу Voice Cloning: есть N минут речи спикера (N варьируется от минут до часов), и хочется научиться клонировать его голос (тембр, интонацию, акцент, просодию). Задача идеальная: есть потенциальная выгода для бизнеса здесь и сейчас( например, озвучивание аудиокниг), а файнтюнить веса базовой модели каждый раз под новый голос — совсем не вариант. Поэтому всем было интересно посмотреть, что получится.

По большому счёту, мы прошли тот же путь экспериментов, что и команда Шульмана: перебирали гиперпараметры обучения, ранги, слои, в которых вставлять адаптеры, и веса, к которым их применять. Выводы сильно коррелировали: большой batch оказывает вредное влияние, а адаптеры нужно применять в первую очередь к FC-слоям трансформера. В итоге получили адаптируемый рецепт под разное количество обучающих данных.

Качество voice cloning оказалось достаточным для прода: реплики были в разы стабильнее, чем zero-shot voice cloning, и не уступали фулл-тюну (бэйзлайн), оставаясь при этом легко масштабируемыми, по крайней мере, с точки зрения ресерча. С точки зрения продакшена же адаптеры не достаются бесплатно (есть эффект на latency, плюс интеграция десятков тысяч адаптеров отдельная инфраструктурная задача). Но это уже другая история.

Успех эксперимента был моментальным и в сентябре того же года начались активные пилоты. Инициативу расширили и наняли отдельную команду, чтобы развивать именно этот продукт. Многих запромоутили или дали хороший бонус.

Также должна была выйти статья, чтобы зафиксировать эффективность метода LoRA для задачи voice cloning. Увы, вот она уже она утонула в потоке бюрократии и более глобальных перестановок в компании.
Forwarded from Sinекура
А в курсе глубокого обучения в прошлый четверг обсуждали механизмы внимания:

СПбГУ — 2025.10.02 — Состязательные примеры и механизмы внимания
(слайды и доска на странице курса)

Начали с состязательных примеров — ну тех самых, которые из панды делают гиббона, рояль или что угодно другое маленьким шумом.

А потом перешли к понятию внимания; это очень интересная штука и с точки зрения нейробиологии (хотя там я мало что понимаю), и, как выясняется, с точки зрения искусственных нейросетей. Начали с первых работ о внимании (Larochelle, Hinton, 2010, например), потом обсудили рекуррентные модели внимания и где там возникает RL, а потом перешли к уже более современным архитектурам: encoder-decoder with attention вроде Show, Attend, and Tell.

В этот раз до self-attention не дошли, но на следующей лекции отступать будет уже некуда, будем о трансформерах говорить.)
Forwarded from Sinекура
Прошедшую в четверг лекцию курса "Глубокое обучение" долго представлять не надо:

СПбГУ — 2025.10.09 — Self-attention и архитектура трансформера
(слайды и доска на странице курса)

Трансформер — буквально самая главная архитектура нейросетей практически с самого своего появления в 2017 году. В Google Scholar у статьи "Attention is All You Need" уже почти двести тысяч цитирований; это не абсолютный рекорд (есть статьи с сотнями тысяч цитирований про стандартные экспериментальные методы, которые везде потом применялись), но наверняка рекорд за прошедшие неполные восемь лет, и влияние трансформеров в 2025 пока не ослабевает.

В лекции я постарался максимально подробно и не торопясь обсудить всё, что можно было обсудить о самовнимании и архитектуре трансформера: от абстрактно-мотивационной идеи self-attention, приходящей из информационного поиска, до токенизации и позиционных вложений. Многое из того, что будет дальше, — это применения и развития идей этой лекции, так что пропускать её стоит только если вы и так уже всё это хорошо знаете.
Forwarded from Sinекура
Начинаю уже запутываться в контенте; столько всего происходит, что даже взятый мной темп по одному посту в день начинает трещать по швам. Тем не менее пока попробую оставаться в этом ритме, и сегодня выберу доклад, публикации которого жду не только я, но и его автор, Александр Панов:

Семинар Markov Lab — 2025.10.08 — AI Scientist
(Слайды на странице семинара)

Александр дал обзор того, как сейчас работают AI-системы, помогающие в научных исследованиях, рассказал о том, что об этом думает его лаборатория в AIRI и в каком направлении она работает. Главная мысль, которую он проводил (насколько я понял), была в том, что успешный AI scientist должен быть в каком-то смысле embodied, то есть должен получить другие модальности непосредственного опыта, не только токены текста и картинок/видео.

Как мне кажется, весьма интересной была и дискуссия после доклада. Мои читатели знают, что AI scientist'ы разного рода — это моя любимая тема, и в этом отношении я настроен очень... хм, хотел сказать "оптимистично", но не уверен, что это правильное слово.) В общем, верю я в AI scientist'ов, и даже в то, что для существенной трансформации всего научного поиска новых мегапрорывов до "AI-Эйнштейнов" совершенно не требуется; на днях выложу ещё один свой недавний доклад об этом, кстати.

Так что поспорили мы знатно; надеюсь, разошлись всё-таки друзьями. :)
HF_ULTRASCALE_PLAYBOOK.pdf
10.6 MB
HF книжка по megatron, fsdp и прочему для обучения реально больших моделей
Forwarded from Yandex for Teamleads
☕️ SCARF — фреймворк, который поможет новому руководителю меньше нервничать

Допустим, вы поменяли работу: перешли в другую компанию на руководящую должность или получили новую роль на старом месте. Теперь у вас в подчинении команда со своей историей. У каждого своя жизнь, свои переживания, задачи и вопросы. Одни присматриваются к вам с любопытством, другие — со скепсисом, и все ждут от вас действий. Раньше на вопрос «Что делать?» вам помогал ответить руководитель, а теперь решения должны принимать вы.

При этом любые изменения будут приносить стресс как вам, так и команде. Вопрос в том, как минимизировать количество этого стресса. Сделать это можно с помощью фреймворка SCARF. Он позволит оценить, как ваши решения влияют на пять ключевых социальных аспектов в команде: статус, ясность, автономность, принадлежность и честность.

👳‍♂️ Подробности — в карточках.

➡️ Про этот и два других фреймворка управления командами рассказал Иван Пузыревский, СТО Yandex Cloud, на конференции Dream → Teamlead.

📺 Запись выступления можно посмотреть на ютубе и в VK Видео.

Подписывайтесь:
💬 @Yandex4Teamleads
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM