EfficientLLM: короткий разбор
Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.
Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.
Главные выводы:
• Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
• Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
• MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
• Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
• Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.
Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.
Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌
Статья
Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.
Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.
Главные выводы:
• Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
• Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
• MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
• Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
• Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.
Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.
Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌
Статья
🔥17👍8❤5
SEIR x PINNs для предсказания каскадных сбоев в мультиагентных системах
Мы всё больше доверяем AI-агентам: они коммитят код, вносят изменения в базы данных, анализируют медицинские данные и блокируют подозрительные транзакции. По данным KPMG 88% компаний с выручкой $1B+ уже используют или деплоят ИИ-агентов. И это сложно не заметить - при общении за к-н сервисом первая линия уже почти всегда ИИ (телекомы, банки, отели, - you name it)
Но… всё хорошо, пока всё хорошо. AI-агенты тоже могут "заболеть" - только их вирусы это дезинформация, малварь, джейлбрейки и заражения RAG. По данным DoomArena, GPT-4o можно сломать в 22,7% случаев в защищённом сценарии, и 78,6% OSWorld, Computer-Use. Для Claude-3.5 attack success rate (ASR) 0,7% и 22,9% соответственно. Главное - судя по архитектуре нынешних мультиагентных систем, успешная атака на к-н популярную модель разлетиться быстрее, чем утренние мемы в чате.
И тут возникают неприятные вопросы: если агент начнет совершать скомпрометированные действия, когда мы это заметим? В тот же день, на следующий, или когда произойдет что-то серьезное? А что делать, когда заметили? "Выдернуть" из розетки, развернуть локальные guardian модели или "вакцинировать" патчами?
На хакатоне Physics x AI Safety Grand Challenge 2025 мы (@GingerSpacetail и Karay.me) занялись именно этой проблемой и сделали фреймворк, который моделирует эпидемии в мире AI-агентов, рассмотрев 8 разных деплоймент сценариев: enterprise, ритейл, трейдинг, кодинг ассистенты, customer service, академия, медицинские AI и критическая инфраструктура. И… внезапно заняли 4-е призовое место среди очень крутых работ.😊
Что именно мы сделали.
Шаг 1. Адаптировали классическую эпидемиологию SEIR-модель для популяции ИИ-агентов.
В основе (любой) эпидемиологической модели лежит система ОДУ (обыкновенных дифференциальных уравнений), описывающая, как "вирус" (в нашем случае скомпрометированное поведение) распространяется среди агентов. Модель SEIR делит популяцию на четыре состояния:
S - Susceptible (уязвимые)
E - Exposed (атакованы, но пока нет "симптомов", или мы их не замечаем)
I - Infectious (активно вредят)
R - Removed (изолированы или "иммунны")
Здесь важны коэффициенты-скорости перехода одного состояния в другое, мы их прикинули на основе открытых данных.
Шаг 2. Подмешали физико-информированные нейросети (Physics-Informed Neural Networks, PINNs) для поиска численного решения ОДУ.
Т.е прямо в функцию потерь добавили физику. Кто хочет математики - residuals, или по-русски невязки уравнений, должны стремиться к нулю. PINNs дают три бонуса:
1. Модель "понимает" законы, по которым развивается процесс.
2. Можно работать и с неполными данными - физика "достраивает" картину.
3. Можно вшивать ASR, MTTD и другие параметры в модель для разных сценариев.
Шаг 3. Прогнали фазовый анализ, нашли точки бифуркаций (где система резко меняет поведение) и аттракторы (куда она падает, как шарик в ямку).
В практическом смысле смогли оценить:
- Какая сейчас эпидемиологическая ситуация среди корпоративных ассистентов, ритейл ботов, медицинских AI и тд.
- Где системы сами стабилизируются, а где уходят в "киберэпидемию" с R_0 > 1
- Какие меры работают лучше: повышение скорости обнаружения (коэфф. gamma), снижение передачи атаки (beta) или "вакцинация" агентов патчами (nu).
А заодно показали, что PINNs отлично работают не только в инженерии или медицине, но и в кибербезопасности.
Что интересно сделать дальше.
Любопытно вместо реактивной киберзащиты отслеживать "эпидемиологию" атак в реальном времени и подбирать меры в зависимости от их стоимости и серьезности, т.е. прогноза, сколько времени осталось до критической точки (заражения 90% агентов).
Поэтому если у вас есть агенты и данные, мы рады коллаборациям (NDA без проблем)
🔗код
📝публикация
Мы всё больше доверяем AI-агентам: они коммитят код, вносят изменения в базы данных, анализируют медицинские данные и блокируют подозрительные транзакции. По данным KPMG 88% компаний с выручкой $1B+ уже используют или деплоят ИИ-агентов. И это сложно не заметить - при общении за к-н сервисом первая линия уже почти всегда ИИ (телекомы, банки, отели, - you name it)
Но… всё хорошо, пока всё хорошо. AI-агенты тоже могут "заболеть" - только их вирусы это дезинформация, малварь, джейлбрейки и заражения RAG. По данным DoomArena, GPT-4o можно сломать в 22,7% случаев в защищённом сценарии, и 78,6% OSWorld, Computer-Use. Для Claude-3.5 attack success rate (ASR) 0,7% и 22,9% соответственно. Главное - судя по архитектуре нынешних мультиагентных систем, успешная атака на к-н популярную модель разлетиться быстрее, чем утренние мемы в чате.
И тут возникают неприятные вопросы: если агент начнет совершать скомпрометированные действия, когда мы это заметим? В тот же день, на следующий, или когда произойдет что-то серьезное? А что делать, когда заметили? "Выдернуть" из розетки, развернуть локальные guardian модели или "вакцинировать" патчами?
На хакатоне Physics x AI Safety Grand Challenge 2025 мы (@GingerSpacetail и Karay.me) занялись именно этой проблемой и сделали фреймворк, который моделирует эпидемии в мире AI-агентов, рассмотрев 8 разных деплоймент сценариев: enterprise, ритейл, трейдинг, кодинг ассистенты, customer service, академия, медицинские AI и критическая инфраструктура. И… внезапно заняли 4-е призовое место среди очень крутых работ.😊
Что именно мы сделали.
Шаг 1. Адаптировали классическую эпидемиологию SEIR-модель для популяции ИИ-агентов.
В основе (любой) эпидемиологической модели лежит система ОДУ (обыкновенных дифференциальных уравнений), описывающая, как "вирус" (в нашем случае скомпрометированное поведение) распространяется среди агентов. Модель SEIR делит популяцию на четыре состояния:
S - Susceptible (уязвимые)
E - Exposed (атакованы, но пока нет "симптомов", или мы их не замечаем)
I - Infectious (активно вредят)
R - Removed (изолированы или "иммунны")
Здесь важны коэффициенты-скорости перехода одного состояния в другое, мы их прикинули на основе открытых данных.
Шаг 2. Подмешали физико-информированные нейросети (Physics-Informed Neural Networks, PINNs) для поиска численного решения ОДУ.
Т.е прямо в функцию потерь добавили физику. Кто хочет математики - residuals, или по-русски невязки уравнений, должны стремиться к нулю. PINNs дают три бонуса:
1. Модель "понимает" законы, по которым развивается процесс.
2. Можно работать и с неполными данными - физика "достраивает" картину.
3. Можно вшивать ASR, MTTD и другие параметры в модель для разных сценариев.
Шаг 3. Прогнали фазовый анализ, нашли точки бифуркаций (где система резко меняет поведение) и аттракторы (куда она падает, как шарик в ямку).
В практическом смысле смогли оценить:
- Какая сейчас эпидемиологическая ситуация среди корпоративных ассистентов, ритейл ботов, медицинских AI и тд.
- Где системы сами стабилизируются, а где уходят в "киберэпидемию" с R_0 > 1
- Какие меры работают лучше: повышение скорости обнаружения (коэфф. gamma), снижение передачи атаки (beta) или "вакцинация" агентов патчами (nu).
А заодно показали, что PINNs отлично работают не только в инженерии или медицине, но и в кибербезопасности.
Что интересно сделать дальше.
Любопытно вместо реактивной киберзащиты отслеживать "эпидемиологию" атак в реальном времени и подбирать меры в зависимости от их стоимости и серьезности, т.е. прогноза, сколько времени осталось до критической точки (заражения 90% агентов).
Поэтому если у вас есть агенты и данные, мы рады коллаборациям (NDA без проблем)
🔗код
📝публикация
❤10🔥9🎉4😁1
🎓 Образование × ИИ: как преподаватели реально используют Claude
Самый спорный кейс - автоматизация оценивания. Всё остальное - про augmentation: планирование курсов, задания, обратная связь, инструменты под задачи.
Антропик выпустили свежий отчёт о том, как преподаватели используют Claude в реальной работе (высшее образование, лето 2025). Интересно не «что умеет модель», а как меняется педагогика на уровне практик.
Главная идея - augmentation, не замена.
ИИ не «делает работу за вас», но помогает думать быстрее и глубже. В подготовке курсов преподаватели используют Claude как ассистента: накидать структуру модуля, выровнять уровень сложности, придумать как проверить понимание. А в исследовательских задачах: собрать источники, предложить план эксперимента, наметить аргументацию (с последующей верификацией человеком, конечно).
Где автоматизация особенно заметна?
В обслуживающих задачах (расписания, шаблоны писем, бюджеты) и частично в оценивании. И вот тут конфликт: соблазн поручить проверку работ ИИ большой, но именно с оцениванием у преподавателей больше всего сомнений - сложно сохранить справедливость, контекст и нюанс.
Новый слой практик - мини-инструменты.
С появлением Artifacts многие делают не только тексты, но и небольшие учебные утилиты прямо «в чате»:
— симуляции и игры под тему модуля;
— автогенерация рубрик и мгновенная обратная связь;
— мини-дашборды для визуализации данных;
— предметные помощники (от стехиометрии до грамматики).
Почему это важно?
1. Персонализация становится реальнее: задания, примеры и объяснения подстраиваются «под скорость» и фон студента.
2. Смена формата оценивания: больше внимания на проверку умения мыслить, а не «сдать правильный ответ».
3. Новая роль преподавателя: куратор и дизайнер опыта обучения, а не только лектор.
4. Навыки будущего: студенты учатся не «бороться с ИИ», а грамотно работать с ним - задавать рамки, проверять, комбинировать.
Пример, который можно попробовать уже сегодня.
Дайте Claude краткое описание темы модуля и уровень группы. Попросите:
«Сгенерируй план из 4 занятий, для каждого - 1 активность на 15 минут, 1 мини-проект на неделю и 3 вопроса для самопроверки. В конце — критерии оценивания в виде рубрики».
Получится хороший «черновик», который вы быстро доведёте до стандарта курса. Это и есть augmentation.
Итог. ИИ в образовании работает лучше всего там, где он усиливает человека: помогает думать, проектировать и давать обратную связь. Автоматизировать стоит то, что точно не снижает качество - расписание, шаблоны, черновики. А вот оценивание требует аккуратности и прозрачных правил.
Вопрос к вам. Как вы уже используете ИИ в обучении — и где проводите границу между «помощью» и «автопилотом»? Что работает/не работает у вас на практике?
Если было полезно - поделитесь с учителями и преподавателями!
Самый спорный кейс - автоматизация оценивания. Всё остальное - про augmentation: планирование курсов, задания, обратная связь, инструменты под задачи.
Антропик выпустили свежий отчёт о том, как преподаватели используют Claude в реальной работе (высшее образование, лето 2025). Интересно не «что умеет модель», а как меняется педагогика на уровне практик.
Главная идея - augmentation, не замена.
ИИ не «делает работу за вас», но помогает думать быстрее и глубже. В подготовке курсов преподаватели используют Claude как ассистента: накидать структуру модуля, выровнять уровень сложности, придумать как проверить понимание. А в исследовательских задачах: собрать источники, предложить план эксперимента, наметить аргументацию (с последующей верификацией человеком, конечно).
Где автоматизация особенно заметна?
В обслуживающих задачах (расписания, шаблоны писем, бюджеты) и частично в оценивании. И вот тут конфликт: соблазн поручить проверку работ ИИ большой, но именно с оцениванием у преподавателей больше всего сомнений - сложно сохранить справедливость, контекст и нюанс.
Новый слой практик - мини-инструменты.
С появлением Artifacts многие делают не только тексты, но и небольшие учебные утилиты прямо «в чате»:
— симуляции и игры под тему модуля;
— автогенерация рубрик и мгновенная обратная связь;
— мини-дашборды для визуализации данных;
— предметные помощники (от стехиометрии до грамматики).
Почему это важно?
1. Персонализация становится реальнее: задания, примеры и объяснения подстраиваются «под скорость» и фон студента.
2. Смена формата оценивания: больше внимания на проверку умения мыслить, а не «сдать правильный ответ».
3. Новая роль преподавателя: куратор и дизайнер опыта обучения, а не только лектор.
4. Навыки будущего: студенты учатся не «бороться с ИИ», а грамотно работать с ним - задавать рамки, проверять, комбинировать.
Пример, который можно попробовать уже сегодня.
Дайте Claude краткое описание темы модуля и уровень группы. Попросите:
«Сгенерируй план из 4 занятий, для каждого - 1 активность на 15 минут, 1 мини-проект на неделю и 3 вопроса для самопроверки. В конце — критерии оценивания в виде рубрики».
Получится хороший «черновик», который вы быстро доведёте до стандарта курса. Это и есть augmentation.
Итог. ИИ в образовании работает лучше всего там, где он усиливает человека: помогает думать, проектировать и давать обратную связь. Автоматизировать стоит то, что точно не снижает качество - расписание, шаблоны, черновики. А вот оценивание требует аккуратности и прозрачных правил.
Вопрос к вам. Как вы уже используете ИИ в обучении — и где проводите границу между «помощью» и «автопилотом»? Что работает/не работает у вас на практике?
Если было полезно - поделитесь с учителями и преподавателями!
❤12🔥2🎉1