Kantor.AI – Telegram

Kantor.AI

11.9K subscribers

162 photos

14 videos

5 files

209 links

Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136

Download Telegram

About

Blog

Apps

Platform

11.9K subscribers

Про конформизм и машинное обучение

Давным-давно я уже будучи преподом делал с командой студентов сервис для автоматического аннотирования текстов. Трансформеров и LLM тогда и в проекте не было, задача аннотирования сводилась к тому, чтобы выделять ключевые предложения, чтения которых достаточно для понимания смысла текста, а лучшими известными подходами были TextRank и LexRank - эдакие аналоги PageRank, но не на сайтах, а на предложениях.

Так вот именно тогда мы усвоили один важный урок: как получить желаемый результат сравнения алгоритмов, если в оценке задействованы асессоры. Для разметки валидационной выборки мы сделали веб-страничку, где асессор должен был сам выбирать ключевые предложения из текста. Задача показалась нам непростой для решения «с чистого листа», поэтому в качестве варианта по умолчанию мы подсвечивали те предложения, которые выбрала бы наша реализация TextRank. Надо ли говорить, какой алгоритм победил в сравнении на этой выборке с большим отрывом?

К сожалению или к счастью, люди обычно довольно легко соглашаются на предложенный им вариант или меняют его не слишком сильно. В частности, поэтому полезнее самому говорить, что вы от них хотите, чем играть с людьми в угадайку и надеяться получить предложение мечты: на работе, в отношениях или договариваясь, как провести время с друзьями. Ну а если вам надо просто собрать выборку для оценки качества - постарайтесь ни к чему не подталкивать ваших асессоров :)

1😁36👍12❤9🔥3

5.36K views23:10

Сегодня с утра порекомендовали посмотреть 4 серию 10 сезона Футурамы. Причина рекомендации прояснилась довольно быстро: один из персонажей там Георг Кантор, тот самый математик, создатель теории множеств, про которого еще Давид Гильберт говорил: «Никто не изгонит нас из рая, который основал Кантор».

Меня периодически спрашивают, родственники мы или нет, на что я честно отвечаю: «не знаю», хотя на кафедре высшей математики МФТИ меня учили в ответ на такой вопрос картинно посмущаться и застенчиво сказать: «ну какое это имеет значение?».

Фамилия не всегда работала в плюс: например, на пересдаче по матану в первом семестре, когда над феноменом Кантора на пересдаче по матану ржала раздающая билеты преп, было не очень приятно. С другой стороны, никогда не забуду лицо своей семинаристки по матану, когда на сдаче задания я сказал ей, что решил задачу со звездочкой в предположении верности континуум-гипотезы (попытки доказательства которой согласно легенде привели Георга Кантора в сумасшедший дом, хотя там конечно было много других факторов)

😁95❤16👏6

5.25K views09:32

Согласитесь, genAI-индустрия становится все более зашумленной – что ни день, то новый стартап или эксперт. Как понять, что работает, а что – мыльный пузырь?

Ходить на мероприятия, где делятся решениями из первых рук – например, Conversations.

Ежегодная конференция по genAI в бизнесе и разработке пройдет 5 декабря в Москве и онлайн. Будет полезно всем, кто внедряет AI в бизнес-процесы и разрабатывает генеративные решения.

Вот только несколько примеров докладов на ближайшей конференции:

- GenAI в разработке: как внедрять генеративные технологии в вашей самой дорогой команде и считать профит в деньгах и других метриках? Axenix (ex Accenture)

- Как в Альфа-Банке с помощью ИИ персонализируют продажи на основе поведения пользователей? Альфа-Банк

- Как в Авиасейлс выстраивают процесс оценки качества ИИ-продуктов? Авиасейлс

Лайнап насыщенный: будут доклады от Т-Банк, Plata card, Positive Technologies, Яндекс, Just AI, GigaB2B, ВкусВилл и других. Полную программу можете посмотреть на сайте.

А если надумаете посетить ивент, то вот промокод на скидку 10%: CVS25mTnK

👎16❤3👍2🫡2

4.97K views16:30

Надо ли уметь писать промты

Мы с Савелием (моим партнером по школе AI) за последние полгода проводили ряд корпоративных обучений про использование LLMок в работе. В начале я не сильно верил в это направление обучения, но когда увидел, как Савелий ведет лекцию, закидывая стандартные задачки заказчика в GPT и автоматизируя выполнение, я сильно впечатлился, насколько же убедительно выглядит то, что получается. Да, без внутреннего контекста организации бывают косяки - например, что можно у клиента компании запрашивать, а что нельзя, с учетом законодательства. Но это очень легко исправляется добавлением ограничений в контекст.

У Савелия есть целая методика про то, как формировать запрос к GPT (промт), и я со своей скептичностью технаря конечно в начале смотрел на нее без фанатизма. Однако попробовав самостоятельно напромтить сравнимые по качеству ответов GPT вещи, я быстро потерпел неудачу и махнул рукой.

Второй мой заход был более удачен: я пошел в GPT с вопросом - расскажи какие есть методики промтинга и как составлять промт оптимально для тебя. Ответ получился очень даже полезен на практике. Далее я начал просить исправлять или дополнять мои промты в соответствии с полученными от GPT рекомендациями. И это тоже неплохо сработало. В конечном итоге я убедился, что даже быстрый экскурс в промтинг сильно повысил мою удовлетворенность результатом.

Чувства я испытал противоречивые. Я, 6 лет учившийся в МФТИ, 15 лет работавший в сфере ныне именуемой AI, учусь делать что??? Промт писать? Срам-то какой, хорошо мои учителя этого не видят. Однако видимо в том и секрет, как не отправиться на свалку истории: как бы ни казалось «не солидно», «несерьезно» и «не по масти» учиться чему-то на первый взгляд простому, снимать уже корону и идти разбираться.

Прошло не сильно много времени, и во многих задачах я сейчас уже не представляю, сколько времени бы я с ними мучался без сеток.

Итого, мои выводы за последние полгода:

1) для офисной работы, IT и написания текстов промтинг теперь все же базовый навык, как и знание, с какой задачкой в какой нейросетевой сервис можно прийти, а также отслеживание (пусть и в ленивом режиме), что нового появляется

2) игнорирование этого навыка по причине «нейросети же галлюцинируют» и «да она придумывает несуществующие в библиотеке функции» и «да нейросеть наврет клиенту так, что по судам ходить замучаемся» (по сути одно и то же, повторенное разными словами) - это полная лажа. Чем меньше вы разбираетесь, как этого всего избегать, тем больше у вас таких косяков вылезает

3) начать знакомство с промтингом можно просто «пообщавшись» на эту тему с GPT и вообще «обсудить» что-то с GPT теперь супер важный навык для самообразования

4) все больше и больше компаний начинают внедрение AI внутри с обучения своих сотрудников использованию нейросетевых сервисов, потому что это просто выгодно с точки зрения повышения производительности и минимизации ошибок (см. пункт 2)

Кстати, если ваша компания сама заплатит за ваше обучение, не игнорируйте эту возможность: самому разбираться с чем угодно дороже и сложнее, чем с группой, с преподом и за счет работодателя :)

💯34👍25🤡10🔥2🏆1

5.03K views13:48

Не пора ли начинать рассказ про DL в NLP с attention

Я все чаще ловлю себя на мысли, что привычная последовательность знакомства с нейросетями для NLP в курсах (RNN, потом LSTM, потом seq2seq, потом attention, и только затем transformer) уже не выглядит актуально. В проде и в открытых моделях сегодня везде трансформерные архитектуры. При этом кажется ничего не мешает сразу давать центральную идею attention и уже от нее строить всю тему сеток в NLP.

Логика рассказа получается довольно простая. У нас есть запрос, ключи и значения. Мы учимся понимать по запросу, на что в контексте стоит смотреть. Меряем близость запроса к каждому ключу, нормируем веса, собираем контекст как взвешенную сумму векторов по токенам. Так одно слово может опереться на те кусочки текста, которые сейчас важны, и не тянуть за собой целиком всю цепочку скрытых состояний. Многоголовость добавляет несколько независимых взглядов на тот же контекст. Отсюда же понятно место для параллелизма и ускорения обучения.

Если начинать с такого рассказа (ну, конечно, на лекции уже с формулами и примерами), студент с первого дня знакомства с NLP начинает с механизма, лежащего в основе современных моделей. Он видит, как именно текст «смотрит сам на себя», и как это знание затем упаковывается в блоки модели.

Рассказ про seq2seq тоже можно сразу избавить от наследия RNNок. Есть энкодер, который читает вход и делает из него удобное представление. Есть декодер, который порционно генерирует выход и каждый раз смотрит на то, что уже написал, и на то, что закодировал энкодер. Перекрестный attention служит мостом между входом и выходом, а позиционные эмбеддинги отвечают за порядок, поэтому мы не теряем структуру последовательности, даже без рекуррентного вида архитектуры.

В таком изложении можно сразу слегка «подзабить» на проблемы длинных зависимостей и затухающих градиентов. Достаточно заметить, что внимание может прыгнуть на нужное место в тексте, хоть в самое начало. И сразу понятно, почему обучение и инференс параллелятся на уровне токенов в энкодере, и где параллелизация ограничена в декодере. Мы сразу изучаем предмет в рамках сегодняшней практики и сразу видим, как эта схема ложится на прикладные задачи: машинный перевод, чат-боты, суммаризацию и т.д.

Дальше уже как обычно рассказ разветвляется на два направления (по принципу какую часть от трансформера оставляем - энкодер или декодер). Transformer-encoder и семейство BERT учатся понимать текст, маскируя кусочки входа и восстанавливая их, обучая в итоге плотное векторное представление, которое хорошо работает для поиска, классификации, извлечения фактов и многих задач понимания языка. Transformer-decoder и семейство GPT учатся продолжать текст. Т.е. если нужно кодировать смысл эмбеддингом и искать, можем брать энкодерные модели, если нужно писать, объяснять, суммаризовать, вести диалог - берем декодер. И кажется от устранения RNN и LSTM из общего рассказа мы ничего не потеряли, кроме, быть может, «развития интуиции в DL», «понимания важности проблемы затухающих градиентов» и гордости за «знание базы».

Так что думаете, уже пора убирать RNN и LSTM из курсов DL? :)

У меня есть ощущение, что морально многим еще сложно на это решиться. Но набрасывать на эту тему уже пора, а то так и будем всякое старье рассказывать десятилетиями (как SVM или наивного Байеса). И вообще есть мнение, что история машинного обучения это интересный предмет, но вполне тянет на отдельный курс, дабы не таскать с собой по курсам всякое старое барахло вечно.

💯50👍22❤9🤔6👎3

4.29K views08:11

Пост для тех, кто ещё не решился

Если вам нравится перспектива работать в ML, но кажется, что уже поздно или “всем места заняты”, то мой ответ — нет, всё только начинается.

И если вы хотите найти своё место в этой быстрорастущей индустрии, то пора бы определяться. С этим вам поможет канал 8БИТ.

В нем редакция Журнала Яндекс Образования просто и понятно объясняют, как работают нейросети, алгоритмы и инженерные системы — без лишней мистики и с любовью к своему делу. Меня зацепили эти посты:

5 существующих гаджетов из «Футурамы»
Промптинг по методу Memento
Как нейросети улучшают поиск

Команда показывает, из чего реально делаются технологии, и как даже школьные или студенческие проекты могут перерасти в большие истории.

Если вы на стадии “присматриваюсь”, — зайдите туда. Почитайте пару постов. Возможно, поймёте, что технологии — не отдельный мир для избранных, а просто инструмент, которым стоит научиться пользоваться.

8БИТ. Журнал Яндекс Образования

Будущее уже в Журнале: clck.ru/3FRCou. А здесь обсуждаем, как оно работает. Делимся промптами, крутыми кейсами и полезными инструментами.

🤡21👍15👎5❤2

4.32K views08:32

State Space Models: кратко о чем там речь

В комментариях к посту про RNN и трансформеры в курсах DL и NLP зашла речь про State Space Models, и мне захотелось поговорить об этом подходе подробнее. Что это такое SSM, почему вокруг них столько разговоров, где они уже работают, и правда ли это “конкуренты трансформерам”, а не очередной виток моды.

Если совсем в общих чертах, SSM - это способ описать последовательность через скрытое состояние, которое эволюционирует во времени, а наблюдение получается из этого состояния. В непрерывном времени это красивое уравнение состояния, а в дискретном возможна как рекуррентная форма, так и сверточная форма с ядром, которое можно посчитать заранее и применить ко всей последовательности.

В модели S4 (Structured State Space Sequence Model) идею довели до более-менее юзабельного состояния: подобрали такую параметризацию, чтобы и устойчивость была, и длинные зависимости улавливались, и всё считалось быстро. На длинных последовательностях S4 в своё время стал эталоном, потому что сумел соединить теорию со скоростью и разумным расходом памяти. Получилось это сделать как раз благодаря записи модели в форме глобальной свертки. Подробнее - в оригинале: https://arxiv.org/abs/2111.00396

Дальше идея эволюции скрытого состояния получила развитие через добавление селективности - параметры начали зависеть от входа, а модель учиться, что хранить, а что забывать по ходу чтения текста. Так появилась Mamba: рекуррентный проход (в S4 селективности не было как раз в том числе чтобы "упаковать" все в глобальную свертку), но с аппаратно дружелюбным параллельным алгоритмом, учитывающим, что где лучше в GPU хранить и как быстрее считать. При этом в оригинале архитектура не использует attention и MLP блоки, хотя гибридные версии позднее тоже появились. Mamba показывала линейное по длине время, высокую пропускную способность на инференсе и приличную точность на языковых, аудио и геномных задачах. Оригинал статьи можно полистать тут: https://arxiv.org/abs/2312.00752

Есть и эмпирические исследования на больших настроенных моделях, где Mamba и Mamba-2 сравнивают лоб в лоб с трансформерами на тех же данных - и там уже видно, где SSM выигрывают по скорости и памяти, а где ещё уступают по качеству при равном масштабе. Прочитать целиком можно по ссылке: https://arxiv.org/abs/2406.07887 , а краткие выводы я приведу ниже.

⌛

Скорость и память на инференсе: асимптотика по длине последовательности лучше, как следствие выше пропускная способность, требующаяся память тоже меньше, что особенно ощутимо на длинных контекстах. Кратное ускорение относительно чистого трансформера.

🎯Приемлемое качество работы в стандартных задачах: чистые SSM часто сопоставимы с трансформерами, а Mamba-2-Hybrid стабильно лучше трансформера на всех стандартных бенчмарках из статьи

📚Длинный контекст при разумной цене: в приведенных в статье экспериментах гибрид сохраняет или превосходит качество трансформера на 23 задачах при лучшей эффективности.

При этом в некоторых менее стандартных задачах SSM проигрывают, особенно в требующих поиска “иголки в стоге сена” и иных кейсах, где нужно адресно вспоминать фрагменты из очень длинного контекста. В частности, тяжело дается бенчмарк Phonebook (с вопросами в духе "какой в точности номер у Боба?" по данным синтетического телефонного справочника), а также MMLU (Massive Multitask Language Understanding) - набор вопросов из ~57 предметных областей (STEM, гуманитарные, соцнауки, профессиональные дисциплины) с множественным выбором.

Однако для начала все равно выглядит очень здорово, а это мы только на статью аж от лета 2024 года посмотрели, больше года прошло. В следующем посте мы продолжим тему и поговорим о более свежих публикациях и применениях.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥34❤17

4.1K views07:26

Субботний оффтоп

Если вы задумали или даже только мечтаете сделать что-то на ваш взгляд очень классное, но не видите вокруг одобрения затеи (особенно от крутых знакомых из числа успешных корпоративных менеджеров), а еще забыли или не видели этот шедевр - вдохновляйтесь :)

https://youtu.be/F_jMbmu4Di0?si=fW76evTAVidq_M7o

Илон Маск и эффективные менеджеры

Если бы у Илона Маска были эффективные менеджеры :)

Кто любит по читать
Мы в Telegram: https://t.iss.one/NRKnewstime

😁18🔥10❤4🤡4❤‍🔥1

6.87K views14:50

Игра, в которой программируешь робота-фермера

Недавно друг, знакомящийся с программированием, стримил, как играет в Farmer was replaced - игру, где нужно на почти Python программировать дрона-фермера, который сажает растения, поливает, удобряет и собирает урожай. Кто помнит "веселую ферму" в ВК - вот это примерно оно, только для всех действий пишешь код.

Мне стало интересно самому посмотреть на игру поближе, и это правда оказалось очень здорово. С одной стороны, возможности языка открываются постепенно и снабжаются понятными объяснениями. С другой стороны, это не было профанацией, когда соединение квадратиков выдается за обучение программированию. Так что очень рекомендую тем, кто только знакомится с программированием (и взрослым, и детям).

Ну а самое приятное - это было интересно и весело, даже когда умеешь программировать, и вот почему:

👷‍♂️ Игра дает приятную ностальгию по чувству «я у мамы инженер». Вы же не будете даже в игрушке писать код так, будто вам по нему проходить код-ревью? Будете? Ну ладно-ладно, а я поговнокодил вдоволь (не как на скриншоте из Steam, но тоже у внутреннего ревьюера миллион вопросиков). Чем это приятно? Тем, что возвращает дух инженерного авантюризма из детства: «я это сделал, оно работает, где-то я по пути набажил, но работает всё равно приемлемо, потом перепишу». Такой раздолбайский подход, который на работе как правило был бы непозволительной роскошью и заявкой на вылет, в игре добавляет веселья.

👨‍💻 Когда у тебя на экране на поле N x N в реальном времени показывается анимация как робот выполняет написанный тобой код, это создает неведомую до сих пор мотивацию оптимизировать код. Одно дело - когда ты сдаешь задачу на leetcode и не проходишь по времени или когда в проде нужно уложиться в X миллисекунд на инференс, чтобы не портить пользовательский опыт. Совсем другое - ждать блин пока вам покажет анимацию всех действий робота 😬 И игра придумана именно так, чтобы были легальные алгоритмические способы срезать углы - вырастить тыквы побольше, эффективнее собирать подсолнухи и т.д.

📈 Можно с детства понимать, что квадрат растет быстрее линейной функции, но когда с ростом размера фермы разница между сложностью решений становится настолько наглядна, что то, что было приемлемым решением полчаса назад, теперь становится невыносимо медленным, задумываешься о многом. И о том, как здорово, что знаешь, как оптимизировать. И о том, зачем в IT компаниях на собеседованиях спрашивают алгоритмы, которые потом требуются раз в три года. В комментах на Steam разумеется есть жалобы на то, что «игра быстро превращается просто в долгое ожидание исполнения кода» от тех, кто про алгоритмы и сложность не слышал. И ведь что интересно: людям не приходит в голову погуглить про оптимизацию решений. Кто не знаком с самой концепцией, и правда не знает, что искать. Поневоле наводит на мысли, что ваш потенциал в любом начинании сильно зависит от уровня знаний как у вас, так и у партнеров и коллег, о том, что на свете бывает. Есть те люди, кто может оптимизировать процесс в разы или вообще на порядки, а есть те, кто будет говорить, что работать просто надо больше и делать однотипные операции изо дня в день.

🐍 В игре все не ограничивается фермерством и ближе к концу дерева технологий открываются лабиринты и игра в змейку, тоже с исполнением роботом написанного вами кода. А для самых рьяных автоматизаторов можно написать код не только выполняющий задачи, но и самостоятельно открывающий дерево технологий и проходящий игру.

В общем, я прекрасно провел вечер, процесс игры одновременно и медитативный, и забавный и поучительный. Поделитесь в комментариях другими играми, которые вызвали у вас похожие чувства :) Кажется, что жанр игр с образовательным флером хоронить рано, и это прекрасно ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥31❤19👍8🤔2💯1

4.91K views09:25

На чем фокусироваться компании, чтобы инвестиции в genAI окупались? Как не утонуть в AI-пилотах? А понять, что AI-трансформация состоялась?

Ответы на эти вопросы можно урывками найти по разным экспертным tg-каналам или на конференциях. Спасибо ребятам из Just AI, которые собрали свой опыт работы с корпорациями по части внедрения genAI в классную экспертную статью.

- Как сформулировать зрелую AI-цель? Снизить нагрузку на колл-центр, подключить LLM к CRM – это незрелая цель.

- Как выстроить систему управления AI? Ведь традиционный подход, при котором одна команда отвечает одновременно и за ИИ-проекты, и за другие направления, уже нэффективен.

- Как выбирать кейсы для реализации? Основные критерии: есть потенциал к масштабированию, дадут максимальный эффект для бизнеса, дорогостоящие в реализации

- Как измерять результат?

- 4 признака, что AI-трансформация состоялась.

Кстати, эксперт отдельно отметил тренд на внедрение мультиагентных систем. Тем, кто уже созрел для автоматизации процессов с помощью AI-агентов, отлично подойдет платформа для разработки Just AI Agent Platform.
Реклама. Erid 2W5zFJM8yKN

Бизнес‑секреты

Как эффективно внедрять генеративный ИИ в бизнес

Как выстроить систему управления AI, выбирать кейсы для реализации и измерять результат от внедрения.

🤡10❤8

4.92K views11:01

This media is not supported in your browser

VIEW IN TELEGRAM

Быстрее, умнее, точнее

VK запустил RecSys Challenge — соревнование по разработке алгоритмов рекомендаций.
Участникам предстоит решить одну из самых сложных проблем рекомендательных систем: предсказать, кому зайдёт ролик, который никто ещё не видел.

В основе датасет VK-LSVD:
40 млрд взаимодействий
20 млн роликов

Формат:
Студенты, исследователи, ML-инженеры — welcome
Призовой фонд — 2 500 000 рублей 💸

Читайте подробнее и регистрируйтесь до 15 декабря на сайте соревнования.

1🤡33👎9😁4🤬3🔥2

4.16K views10:02

State Space Models: часть 2. Свежие (2024-2025) публикации по SSM как альтернативам/добавкам к трансформерам

Продолжая тему SSM, сначала вброшу список статеек, с которыми будет интересно ознакомиться, а в следующий раз напишу кратко основные выводы. Кому интересно полистать самому - сохраняйте себе, прекрасное чтиво на праздники.

Статьи про связь SSM и трансформеров

Две статьи с перекликающимися названиями, в которых изучается, как связаны SSM и трансформеры. Первая - еще из 2024 года:
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality - https://arxiv.org/abs/2405.21060

Вторая опубликована уже в 2025 и разбирает границы возможностей рекуррентных моделей при извлечении из контекста:
When recalling in-context, Transformers are not SSMs - https://arxiv.org/abs/2508.19029

В целом, как говорила одна моя знакомая (разумеется, работавшая эффективным менеджером): "Из этой книги я прочитала только название и мне этого достаточно". Так и тут, названия статей очень информативны, но очень советую заглянуть внутрь, там достаточно красивые вещи, особенно в первой.

Гибриды SSM+Attention в 2025

Как мы обсуждали в прошлый раз, не обязательно упарываться в чистые SSM, можно делать гибридные решения. 2025 год дал нам много примеров таких гибридных решений для насущных задач. Ниже некоторые из них.

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Models - https://arxiv.org/abs/2503.13440
Часть слоёв декодера VLM заменяют на Mamba-2, получая ускорение и экономию памяти при сохранении качества.

MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement - https://arxiv.org/abs/2507.00966
Гибрид Mamba + MHA улучшает обобщаемость в шумоподавлении при обработке речи.

Exploring Resolution-Wise Shared Attention in Hybrid Mamba-based Speech Enhancement - https://arxiv.org/abs/2510.01958
Ещё один вариант гибрида для улучшения речи с сильной межкорпусной обобщаемостью.

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning - https://arxiv.org/abs/2505.15703
Предсказание движения транспорта (супер важная задача для развития беспилотных автомобилей): attention-энкодер + Mamba-декодер даёт SOTA на бенчмарке Argoverse 2.

Еще несколько статей из 2024, которые все же стоит смотреть даже сейчас:

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling - https://arxiv.org/abs/2406.07522
Простая послойная гибридизация Mamba + скользящее внимание: длинный контекст и высокая эффективность.

Transformers are Better than State Space Models at Copying - https://arxiv.org/abs/2402.01032
Тут, опять-таки, все понятно из названия.

ML-Mamba: Efficient Multi-Modal Large Language Model with Mamba-2 - https://arxiv.org/abs/2407.19832
Применение Mamba-2 в мультимодальных моделях как альтернатива чистому attention.

Transformers are SSMs: Generalized Models and Efficient Algorithms...

While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform...

👍11🔥9❤2😁2

3.86K views18:20

State Space Models: часть 3. Что можно сказать сейчас.

Краткий вывод про SSM
Чистые SSM дают хорошее ускорение и вполне себе сравнимы с трансформерами по качеству работы (а где-то лучше). При этом чистые SSM хуже чем трансформеры справляются с задачей точного копирования из длинного контекста. На практике сейчас по факту лидируют гибриды SSM+Attention.

Почему это работает
Гибриды дают лучшую точность при меньших затратах, чем чистые трансформеры, при этом нужно понимать, что это не прям гибрид с трансформером, а скорее прикручивание идеи механизма внимания (с некоторыми модификациями) к SSM. Отдельный вопрос в том, что у SSM линейная ассимптотика времени работы, а у attention вследствие попарных сравнений - квадратичная, т.е. чтобы делать эффективный гибрид, хорошо бы как-то улучшить ассимптотику для аттеншена. Здесь можно провести аналогию с оптимизацией матричных операций: если вы оперируете матрицами какого-то специального вида (разреженными, диагональными, еще какими-нибудь особыми), то для того же перемножения матриц ассимптотику можно существенно улучшить. Также можно поступать и с аттеншеном, добавляемым к SSM, если добавлять дополнительные ограничения. Другой подход к гибридам - это послойные гибриды, когда где-то вы заменяете аттеншн на SSM-блоки. Тут мы не ускоряем сам аттеншн, просто используем его менее активно и получаем общее ускорение модельки.

Почему это важно
К сожалению или к счастью, не у всех компаний есть бюджет OpenAI или FAAMG на инфраструктуру для обучения своих сеток. Что делать, если железа и денег сильно меньше, чем у них? Я вижу три варианта для менеджмента AI-направлений: 1) не лезть в историю со своими собственными LLMками, 2) повторять за большими ребятами и надеяться на ускорение и удешевление вычислений в будущем, а пока это происходит - отмазываться тезисом "ну у нас же нет бюджетов OpenAI, вот поэтому и хуже работает", 3) смотреть в сторону более эффективных архитектур, которые будут менее требовательны к ресурсам, чем трансформеры, но смогут давать аналогичное качество. Основанные на SSM архитектуры выглядят как очень правдоподобные кандидаты для сценария 3.

Остается вопрос: если SSM такая классная штука, почему же все еще на нее не переехали? Об этом в следующем, заключительном посте.

🔥8❤4

3.45K viewsedited 09:45

Тренируете LLM на нескольких GPU и думаете, как масштабироваться дальше? Упираетесь в лимиты по скорости обучения или замечаете, что увеличение числа GPU не даёт нужного ускорения?

Тогда присмотритесь к LLM Scaling Week — насыщенному кейсами интенсиву от ШАДа и Яндекс Образования.

Практические лекции и семинар от инженеров команды обучения YandexGPT покажут, как они работают на GPU-кластере. Всё, чтобы без воды, с практикой, на реальных кейсах научить:

- Арифметике глубоко обучения
- Коммуникации в распределенном обучении и инференсе
- Mixture of Experts
- FP8 + Triton
- Inference challenges

Интенсив полностью бесплатный и подойдет ML и DL-инженерам, исследователям, специалистам по инфраструктуре и студентам технических вузов. Зарегистрироваться можно здесь.

❤6👍3👎2

5.31K views10:02

Про выступления перед большими боссами

У всех нас, кроме совсем уж свободных предпринимателей (не имеющих ни инвесторов, ни даже якорного заказчика), есть боссы. Если вы топ - это CEO и совет директоров, если вы CEO - это совет директоров и акционеры, если вы акционер крупного холдинга - это представители власти, достаточно высоко стоящие в понятийном табеле о рангах. Если вы стартапер - у вас есть инвесторы, а если вы инвестируете не свои деньги, например, у вас целый фонд, то есть инвесторы, которые дают деньги в управление вам. В итоге, кем бы вы ни были, от джуна до олигарха - у вас периодически будет возникать задача "доклад высокому начальству".

Каждый раз в карьере, когда я с этой задачей сталкивался, я нет-нет, да и слышал от своего непосредственного руководителя: "это они не поймут, это слишком сложно, это убери". Меня всегда коробило - почему это вы тут говорите о боссах, как о ком-то не слишком умном, они же каким-то образом стали боссами, это часто очень прошаренные люди. И часто это подтверждалось в личных разговорах с биг боссами - запросто могло оказаться, что биг босс шарит за мою достаточно узкопрофессиональную тему побольше некоторых боссов поменьше :)

Но постепенно на меня снизошло понимание, как это работает. Дело не в том, что большое начальство что-то не понимает или не может понять (хотя такой фактор тоже есть, т.к. мы не можем быть экспертами во всем и нужно уметь говорить с людьми на их языке). Ключевая особенность биг боссов - они очень дорожат своим временем, потому что оно правда очень дорого стоит. Поэтому, когда им непонятно, они часто не задают кучу вопросов и разбираются (как например Косыгин, когда академик Журавлев в молодости придумал метод поиска месторождений золота африканского типа - см. стр.1-2), а просто раздражаются. Потому что время ушло, а результата не получилось.

Теперь я сам часто замечаю за собой эти фразы: "это убрать", "это не поймут", "это не нужно", когда материал готовится для аудитории биг боссов (например, в лекции для каких-нибудь матерых экзекьютивов или где в аудитории будет сидеть крупный акционер). Я конечно продолжаю в силу природного азарта заигрывать с тем, что акционеры люди очень умные и с ними можно уйти в дискуссии на глубину. Но т.к. экзеки иногда бледнеют, когда понимают, что начинается, и как высоко вырастают риски (на фоне обычного "что-то поговорили, что-то послушали, проект решения - принять к сведению"), я все же стараюсь черезчур не усердствовать с интерактивами у биг боссов.

Можно было бы сказать, что как-то это все грустно, драйва ж меньше от поллиткорректности. А вот смотря где его искать. Когда ко мне приходит индивидуально пообщаться про AI какой-нибудь топ, у нас нет свидетелей нашего диалога, кроме записи в зуме, а человеку реально интересно, я чувствую и драйв и искреннюю радость, что политес политесом, а все мы живые люди, у которых еще не атрофировалось любопытство и живой интерес к новому. Всего-то нужны правильные обстоятельства, причины, и атмосфера встречи, а то будут не те details не тот fabric :)

Вывод? Вывод простой, вместо того, чтобы дуть против ветра, можно искать места турбулентности и получать драйв там. А там, где культура уже сложилась, просто принять ее как данность и сэкономить время всем.

2❤45👍26💯10🤬1

3.71K views17:41

🦄

Для тех, кто уже стартапит или вот-вот начнет

Если у вас уже есть рабочий прототип или MVP, и вы хотите встроить GigaChat в продукт, самое время податься в AI-трек акселератора Sber500 × GigaChat — открыт набор на вторую волну.

В онлайн-буткемп проходят все команды, которые предложат реалистичные сценарии использования GigaChat, а лучшие 50 проектов продолжат акселерацию с международными менторами Sber500 и технической командой GigaChat.

В буткемпе можно будет получить:

1⃣бесплатный объём токенов,
2⃣доступ к API и понятным инструкциям для интеграции,
3⃣регулярные Q&A с экспертами (это экономит недели на проверках гипотез и даёт короткий путь к пилотам)

🚀Программа также открывает двери к инвесторам и корпорациям, а у выпускников уже есть живые кейсы и офферы.

⏱️Сроки близкие: 1–15 ноября — окно кампании, чем раньше подадитесь, тем лучше. Подача заявки — по ссылке ниже, дальше короткий отбор на буткемп и сразу к делу: сценарии, интеграция, метрики, готовность к пилотам.

🔥🔥🔥Участие бесплатное!🔥🔥🔥

👉 Подать заявку по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

🤡23🔥8❤6👍5👎2

3.71K views11:33

Воскресный оффтоп: про загоны вида «кто я, что я из себя представляю, чем хочу дальше заниматься» и тому подобное

Самые противные, но при этом очень важные периоды жизни - кризисы идентичности в моменты важных изменений в жизни.

Ушли из найма предпринимательство? Или наоборот из своего дела в корпорацию к начальнику, который, как оказалось, вам ездит теперь по мозгам как хочет? Завели семью и уже не хотите сливать всю жизнь в работу? Или будучи очень миролюбивым внезапно стали боссом в агрессивной бизнес-среде, и теперь вынужденно смиряетесь с тем, что если дружить со всеми, вас съедят первым? Во всех таких случаях перемены достаточно сильные, чтобы ваше прошлое представление о себе могло стать не актуальным.

В чем подвох, так это в том, что мы не то чтобы привыкли детально осознавать свое эмоциональное состояние. Может вы думали, что любили старую работу за удобное рабочее место и интересных коллег, а потом уволились, и как-то никакой тоски ни по одному, ни по другому. А вот например то, что перед корешами больше не сделать грудь колесом, что развиваете сервис, которым все они пользуются, это подкосило. Как будто какая-то опора внутри пропала. А у кого-то наоборот окажется, что дело не было в продукте, а в коллективе, но итог будет тот же: внутренняя пустота после.

Или другой пример: начинаете наконец время с близкими проводить (к чему может быть триггером чья-то болезнь, получение большого бонуса и уход с работы или просто так получилось), и как ледяной водой обдает - на что ж годы жизни по 60-80 рабочих часов в неделе ушли. Быстро осознаешь, что родители уже успели состариться, друзей стало заметно меньше и вообще страшно подумать, сколько человеческого упущено.

И вот в этой внезапности открытий кроется первый неприятный момент. Можно было бы уже сто раз понять, где будет больно, и где какие опоры у прошлого «я», но нет, все это мы обычно выясняем на практике. Второй неприятный момент в том, что пока испытываешь боль от потерянных старых опор, еще ищешь новое «я», а не знаешь уже точно, что же будешь делать дальше с пошаговым планом. Даже если план изначально был, все равно реальные переживания от проживаемого кризиса накладывают отпечаток.

Лично меня максимально раздражает период, когда новая система координат еще продолжает формироваться, новые цели еще уточняются, а действовать уже хочется. Такое гнетущее чувство неудовлетворенности тем, что мыслей много, а дела как-то поменьше. Похоже на сжимание пружины: хочется уже выстрелить, но пока продолжаешь накапливать потенциальную энергию.

С другой стороны, такой кризис это потрясающее время. Ощущения примерно как пишешь-пишешь код, копишь сделанные наскоро штуки, а потом наконец-то выделили время на рефакторинг, и наконец-то наводишь порядок, как уже давно хотелось. Т.е. время, легально выделенное на то, чтобы дальше жить в большем порядке, в большей эстетике и в большем удовлетворении.

Самое главное, что такой кризис идентичности это путь из состояния апатии и усталости в состояние полной противоположности апатии: возможность и желание делать много и целеустремленно. Я все больше склоняюсь к мысли, что часто то, что мы принимаем за выгорание, усталость или лень это просто потеря актуальности старых целей. Когда видишь, что романтика прошлых мечт и стремлений была всего лишь розовыми очками, когда видишь бессмысленность и искусственность, когда каждый день становится не только как день сурка, но как бессмысленный день сурка, дело не в лени :) Дело всего лишь в том, что вы уже изменились, а то, что вы делаете каждый день - нет. И нужно просто набраться мужества это исправить и пойти за новыми смыслами.

❤103👍26🔥9💯7🤔6

3.41K views12:48

SSM часть 4: почему все еще не переехали?

Вопрос из разряда «если вы такие умные, почему вы такие бедные»: если гибриды SSM так хороши, почему пока что все не переехали с трансформеров на них?

Короткий ответ: гибриды перспективны, но переезд всего стека у топ-игроков - дорогой и рискованный проект, плюс для трансформеров так-то тоже есть подходы к оптимизации.

Чуть подробнее:

1) Самый банальный довод - бюджет уже сделан под текущую технологию 🙂 Вопрос, зачем заморачиваться, открыт. Проблема из разряда "нам итак хорошо"

2) Переобучить модели с нуля на триллионах токенов + заново прогнать RLHF и остальные важные штуки - десятки миллионов американских рублей и месяцы GPU-времени.

3) Риск деградации пользовательского опыта: одно узкое ухудшение работы (retrieval, копирование, точные форматы) может стоить конверсии и NPS больше, чем выигрыш в $/токен.

4) В трансформерах рецепт применения известен и подход максимально изучен: стабильность обучения, скейлинг-законы, MoE-паттерны, дистилляция, квантование, спекулятивная/параллельная декодировка - всё отлажено. Гибриды моложе: лучшие практики (какие слои делать SSM, как инициализировать, где оставлять attention, как дистиллировать) ещё уточняются.

5) Инфра и инструменты уже сильно заточены под трансформеры. Индустрия сильно оптимизировала KV-кэш (paged KV, continuous batching), а у SSM другие узкие места. Для квантования в attention-блоках тоже куча стандартных решений, в SSM еще учимся и сравниваем подходы. На уровне железа CUDA/Triton/TVM/Inductor уже агрессивно оптимизируют attention-паттерны, для SSM еще предстоит пройти этот путь.

6) Не забываем про качество: SSM традиционно слабее в точном копировании и адресном извлечении из длинного контекста. Гибриды это чинят, но бизнес в целом не любит частое попадание в граничные условия, где модель ведёт себя иначе.

7) Сравнимость моделей: у компаний есть микро- и макро-модели (от 1B до 400B), open/closed, MoE-ветки. Массовый переход мешает сравнимости поколений и бенчмарков.

8 ) Трансформеры тоже можно оптимизировать: FlashAttention, paged KV, continuous batching, speculative decoding, MoE, сжатие/квантование - всё это уже даёт 2-10х экономии без радикальной замены трансформеров на новую архитектуру

В сухом остатке - переезд хуже чем два пожара, потому и не переезжаем. Что интересно, доводы выше применимы к большинству "убийц трансформеров", так что по большому счету они не сильно SSM-специфичны, а это просто проблемы примерно любого переезда.

👍13❤4🔥2🤡1

3.17K viewsedited 09:04

Ловите инструкцию, как безопасно работать с AI

📎

Сегодня компании все активнее внедряют AI и ML в свои процессы, но ошибки в настройках или незнание специфики моделей могут привести к серьезным инцидентам.

Недавно провайдер Cloud.ru запустил облачную среду для работы с AI&ML — Evolution AI Factory, а сейчас делится гайдом — «Защищенный AI в облаке: как избежать киберугроз».

Внутри инструкции:
😶‍🌫️как интегрировать GenAI в облако без риска

😶‍🌫️как настроить безопасность AI‑сервисов

😶‍🌫️как осуществить контроль доступа и логирование

Забрать гайд уже можно по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🤬4❤2🔥1🤔1

3.4K views10:03

Эндрю Ын (тот самый профессор Стенфорда, автор курсов по ML на Coursera и собственно основатель Coursera) поделился потрясающей историей про один очень недооцененный вредный эффект хайпа вокруг AI:

Недавно я получил электронное письмо под названием «Дилемма 18-летнего: слишком поздно вносить вклад в ИИ?» Её автор, который дал мне разрешение поделиться этим, готовится к поступлению в колледж. Он боится, что к моменту выпуска ИИ будет настолько хорош, что у него не останется какой-то значимой работы, чтобы внести вклад в человечество, и он будет жить на универсальный базовый доход (UBI). Я ответил ему, чтобы успокоить его, что у него будет много работы ещё десятилетиями, и призвал его усердно работать и учиться строить с помощью ИИ. Но этот разговор показался мне примером того, насколько вреден хайп вокруг ИИ.

И в самом деле, пока менеджеры и предприниматели растят presentation gap во имя инвестиций и роста оценок компаний, молодое поколение это слушает и очень может быть, что верит. И мало того, что испытывает повышенную тревогу насчет будущего, еще и может не идти в AI, просто опасаясь оказаться уже не нужными, ведь AGI уже рядом, не успеешь даже диплом получить. А подстава в том, что сфера AI как раз наоборот очень требовательна к большому количеству приходящих в нее умных людей со свежим взглядом на задачи и молодыми работоспособными мозгами.

👍61❤18🤯6😁2🤡1

3.21K views23:11