Kantor.AI
11.8K subscribers
163 photos
14 videos
5 files
209 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
State Space Models: часть 2. Свежие (2024-2025) публикации по SSM как альтернативам/добавкам к трансформерам

Продолжая тему SSM, сначала вброшу список статеек, с которыми будет интересно ознакомиться, а в следующий раз напишу кратко основные выводы. Кому интересно полистать самому - сохраняйте себе, прекрасное чтиво на праздники.


Статьи про связь SSM и трансформеров

Две статьи с перекликающимися названиями, в которых изучается, как связаны SSM и трансформеры. Первая - еще из 2024 года:
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality - https://arxiv.org/abs/2405.21060

Вторая опубликована уже в 2025 и разбирает границы возможностей рекуррентных моделей при извлечении из контекста:
When recalling in-context, Transformers are not SSMs - https://arxiv.org/abs/2508.19029

В целом, как говорила одна моя знакомая (разумеется, работавшая эффективным менеджером): "Из этой книги я прочитала только название и мне этого достаточно". Так и тут, названия статей очень информативны, но очень советую заглянуть внутрь, там достаточно красивые вещи, особенно в первой.


Гибриды SSM+Attention в 2025

Как мы обсуждали в прошлый раз, не обязательно упарываться в чистые SSM, можно делать гибридные решения. 2025 год дал нам много примеров таких гибридных решений для насущных задач. Ниже некоторые из них.

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Models - https://arxiv.org/abs/2503.13440
Часть слоёв декодера VLM заменяют на Mamba-2, получая ускорение и экономию памяти при сохранении качества.

MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement - https://arxiv.org/abs/2507.00966
Гибрид Mamba + MHA улучшает обобщаемость в шумоподавлении при обработке речи.

Exploring Resolution-Wise Shared Attention in Hybrid Mamba-based Speech Enhancement - https://arxiv.org/abs/2510.01958
Ещё один вариант гибрида для улучшения речи с сильной межкорпусной обобщаемостью.

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning - https://arxiv.org/abs/2505.15703
Предсказание движения транспорта (супер важная задача для развития беспилотных автомобилей): attention-энкодер + Mamba-декодер даёт SOTA на бенчмарке Argoverse 2.


Еще несколько статей из 2024, которые все же стоит смотреть даже сейчас:

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling - https://arxiv.org/abs/2406.07522
Простая послойная гибридизация Mamba + скользящее внимание: длинный контекст и высокая эффективность.

Transformers are Better than State Space Models at Copying - https://arxiv.org/abs/2402.01032
Тут, опять-таки, все понятно из названия.

ML-Mamba: Efficient Multi-Modal Large Language Model with Mamba-2 - https://arxiv.org/abs/2407.19832
Применение Mamba-2 в мультимодальных моделях как альтернатива чистому attention.
👍10🔥92😁2
State Space Models: часть 3. Что можно сказать сейчас.

Краткий вывод про SSM
Чистые SSM дают хорошее ускорение и вполне себе сравнимы с трансформерами по качеству работы (а где-то лучше). При этом чистые SSM хуже чем трансформеры справляются с задачей точного копирования из длинного контекста. На практике сейчас по факту лидируют гибриды SSM+Attention.

Почему это работает
Гибриды дают лучшую точность при меньших затратах, чем чистые трансформеры, при этом нужно понимать, что это не прям гибрид с трансформером, а скорее прикручивание идеи механизма внимания (с некоторыми модификациями) к SSM. Отдельный вопрос в том, что у SSM линейная ассимптотика времени работы, а у attention вследствие попарных сравнений - квадратичная, т.е. чтобы делать эффективный гибрид, хорошо бы как-то улучшить ассимптотику для аттеншена. Здесь можно провести аналогию с оптимизацией матричных операций: если вы оперируете матрицами какого-то специального вида (разреженными, диагональными, еще какими-нибудь особыми), то для того же перемножения матриц ассимптотику можно существенно улучшить. Также можно поступать и с аттеншеном, добавляемым к SSM, если добавлять дополнительные ограничения. Другой подход к гибридам - это послойные гибриды, когда где-то вы заменяете аттеншн на SSM-блоки. Тут мы не ускоряем сам аттеншн, просто используем его менее активно и получаем общее ускорение модельки.

Почему это важно
К сожалению или к счастью, не у всех компаний есть бюджет OpenAI или FAAMG на инфраструктуру для обучения своих сеток. Что делать, если железа и денег сильно меньше, чем у них? Я вижу три варианта для менеджмента AI-направлений: 1) не лезть в историю со своими собственными LLMками, 2) повторять за большими ребятами и надеяться на ускорение и удешевление вычислений в будущем, а пока это происходит - отмазываться тезисом "ну у нас же нет бюджетов OpenAI, вот поэтому и хуже работает", 3) смотреть в сторону более эффективных архитектур, которые будут менее требовательны к ресурсам, чем трансформеры, но смогут давать аналогичное качество. Основанные на SSM архитектуры выглядят как очень правдоподобные кандидаты для сценария 3.

Остается вопрос: если SSM такая классная штука, почему же все еще на нее не переехали? Об этом в следующем, заключительном посте.
🔥72
Тренируете LLM на нескольких GPU и думаете, как масштабироваться дальше? Упираетесь в лимиты по скорости обучения или замечаете, что увеличение числа GPU не даёт нужного ускорения?

Тогда присмотритесь к LLM Scaling Week — насыщенному кейсами интенсиву от ШАДа и Яндекс Образования.

Практические лекции и семинар от инженеров команды обучения YandexGPT покажут, как они работают на GPU-кластере. Всё, чтобы без воды, с практикой, на реальных кейсах научить:

- Арифметике глубоко обучения
- Коммуникации в распределенном обучении и инференсе
- Mixture of Experts
- FP8 + Triton
- Inference challenges

Интенсив полностью бесплатный и подойдет ML и DL-инженерам, исследователям, специалистам по инфраструктуре и студентам технических вузов. Зарегистрироваться можно здесь.
6👍3👎2
Про выступления перед большими боссами

У всех нас, кроме совсем уж свободных предпринимателей (не имеющих ни инвесторов, ни даже якорного заказчика), есть боссы. Если вы топ - это CEO и совет директоров, если вы CEO - это совет директоров и акционеры, если вы акционер крупного холдинга - это представители власти, достаточно высоко стоящие в понятийном табеле о рангах. Если вы стартапер - у вас есть инвесторы, а если вы инвестируете не свои деньги, например, у вас целый фонд, то есть инвесторы, которые дают деньги в управление вам. В итоге, кем бы вы ни были, от джуна до олигарха - у вас периодически будет возникать задача "доклад высокому начальству".

Каждый раз в карьере, когда я с этой задачей сталкивался, я нет-нет, да и слышал от своего непосредственного руководителя: "это они не поймут, это слишком сложно, это убери". Меня всегда коробило - почему это вы тут говорите о боссах, как о ком-то не слишком умном, они же каким-то образом стали боссами, это часто очень прошаренные люди. И часто это подтверждалось в личных разговорах с биг боссами - запросто могло оказаться, что биг босс шарит за мою достаточно узкопрофессиональную тему побольше некоторых боссов поменьше :)

Но постепенно на меня снизошло понимание, как это работает. Дело не в том, что большое начальство что-то не понимает или не может понять (хотя такой фактор тоже есть, т.к. мы не можем быть экспертами во всем и нужно уметь говорить с людьми на их языке). Ключевая особенность биг боссов - они очень дорожат своим временем, потому что оно правда очень дорого стоит. Поэтому, когда им непонятно, они часто не задают кучу вопросов и разбираются (как например Косыгин, когда академик Журавлев в молодости придумал метод поиска месторождений золота африканского типа - см. стр.1-2), а просто раздражаются. Потому что время ушло, а результата не получилось.

Теперь я сам часто замечаю за собой эти фразы: "это убрать", "это не поймут", "это не нужно", когда материал готовится для аудитории биг боссов (например, в лекции для каких-нибудь матерых экзекьютивов или где в аудитории будет сидеть крупный акционер). Я конечно продолжаю в силу природного азарта заигрывать с тем, что акционеры люди очень умные и с ними можно уйти в дискуссии на глубину. Но т.к. экзеки иногда бледнеют, когда понимают, что начинается, и как высоко вырастают риски (на фоне обычного "что-то поговорили, что-то послушали, проект решения - принять к сведению"), я все же стараюсь черезчур не усердствовать с интерактивами у биг боссов.

Можно было бы сказать, что как-то это все грустно, драйва ж меньше от поллиткорректности. А вот смотря где его искать. Когда ко мне приходит индивидуально пообщаться про AI какой-нибудь топ, у нас нет свидетелей нашего диалога, кроме записи в зуме, а человеку реально интересно, я чувствую и драйв и искреннюю радость, что политес политесом, а все мы живые люди, у которых еще не атрофировалось любопытство и живой интерес к новому. Всего-то нужны правильные обстоятельства, причины, и атмосфера встречи, а то будут не те details не тот fabric :)

Вывод? Вывод простой, вместо того, чтобы дуть против ветра, можно искать места турбулентности и получать драйв там. А там, где культура уже сложилась, просто принять ее как данность и сэкономить время всем.
242👍24💯10🤬1
🦄Для тех, кто уже стартапит или вот-вот начнет

Если у вас уже есть рабочий прототип или MVP, и вы хотите встроить GigaChat в продукт, самое время податься в AI-трек акселератора Sber500 × GigaChat — открыт набор на вторую волну.

В онлайн-буткемп проходят все команды, которые предложат реалистичные сценарии использования GigaChat, а лучшие 50 проектов продолжат акселерацию с международными менторами Sber500 и технической командой GigaChat.

В буткемпе можно будет получить:

1⃣бесплатный объём токенов,
2⃣доступ к API и понятным инструкциям для интеграции,
3⃣регулярные Q&A с экспертами (это экономит недели на проверках гипотез и даёт короткий путь к пилотам)

🚀Программа также открывает двери к инвесторам и корпорациям, а у выпускников уже есть живые кейсы и офферы.

⏱️Сроки близкие: 1–15 ноября — окно кампании, чем раньше подадитесь, тем лучше. Подача заявки — по ссылке ниже, дальше короткий отбор на буткемп и сразу к делу: сценарии, интеграция, метрики, готовность к пилотам.

🔥🔥🔥Участие бесплатное!🔥🔥🔥

👉 Подать заявку по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡15🔥76👍4👎2