Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🔥1
🧪 Новый бенчмарк показывает, как LLM-агенты ломаются на реальных задачах
- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).
⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.
🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.
📄 Статья: https://arxiv.org/abs/2508.14704
- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).
⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.
🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.
📄 Статья: https://arxiv.org/abs/2508.14704
❤5👍3🔥3
Forwarded from Анализ данных (Data analysis)
📖 Вечернее чтение
Команда из DeepMind подготовила отличный материал о том, что нужно знать о работе с GPU.
- Разбор архитектуры NVIDIA GPU: SM, Tensor Cores, кеши, HBM.
- Сравнение GPU и TPU: гибкость против специализированной мощности.
- Как устроены GPU-кластеры и коллективные коммуникации.
- Roofline-анализ масштабирования LLM: data, tensor, expert, pipeline parallelism.
🔥 Если вы работаете с масштабированием моделей - мастрид.
👉 https://jax-ml.github.io/scaling-book/gpus/
@data_analysis_ml
Команда из DeepMind подготовила отличный материал о том, что нужно знать о работе с GPU.
- Разбор архитектуры NVIDIA GPU: SM, Tensor Cores, кеши, HBM.
- Сравнение GPU и TPU: гибкость против специализированной мощности.
- Как устроены GPU-кластеры и коллективные коммуникации.
- Roofline-анализ масштабирования LLM: data, tensor, expert, pipeline parallelism.
🔥 Если вы работаете с масштабированием моделей - мастрид.
👉 https://jax-ml.github.io/scaling-book/gpus/
@data_analysis_ml
❤5👍5🔥3
📌Приглашаем вас на три бесплатных вебинара курса «ML для финансового анализа»
💎Вебинар №1: «Инструменты тестирования торговых стратегий»
⏰ 27 августа в 20:00 мск
🔹На вебинаре:
- Познакомитесь с инструментами для backtesting’а: от pandas до backtrader и backtesting.
-Узнаете про метрики оценки: доходность, просадка, Sharpe ratio
- Покажем ошибки при тестировании и как их избежать.
- Практика по тестированию простой стратегии и анализу ее метрик.
💎Вебинар №2: «Введение в технический анализ: построение торговой стратегии»
⏰ 4 сентября в 20:00 мск
🔹На вебинаре:
-Узнаете архитектурное решение локального торгового робота
- Познакомитесь с понятием технического анализа
- Практика с актуальными инструментами
- Построения индикаторов на практике
- Первая стратегия на тех. анализе
💎Вебинар №3: «Работа с торговой площадкой ByBit»
⏰ 17 сентября в 20:00 мск
🔹На вебинаре:
- Обзор возможностей платформы ByBit: типы ордеров, торговые пары.
- Разбор основных принципов работы с API ByBit: авторизация, получение котировок, выставление ордеров.
- Напишем простой торговый скрипт на Python и протестируем его на демо-аккаунте.
🎁Участники вебинаров получат подарки на почту
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
💎Вебинар №1: «Инструменты тестирования торговых стратегий»
⏰ 27 августа в 20:00 мск
🔹На вебинаре:
- Познакомитесь с инструментами для backtesting’а: от pandas до backtrader и backtesting.
-Узнаете про метрики оценки: доходность, просадка, Sharpe ratio
- Покажем ошибки при тестировании и как их избежать.
- Практика по тестированию простой стратегии и анализу ее метрик.
💎Вебинар №2: «Введение в технический анализ: построение торговой стратегии»
⏰ 4 сентября в 20:00 мск
🔹На вебинаре:
-Узнаете архитектурное решение локального торгового робота
- Познакомитесь с понятием технического анализа
- Практика с актуальными инструментами
- Построения индикаторов на практике
- Первая стратегия на тех. анализе
💎Вебинар №3: «Работа с торговой площадкой ByBit»
⏰ 17 сентября в 20:00 мск
🔹На вебинаре:
- Обзор возможностей платформы ByBit: типы ордеров, торговые пары.
- Разбор основных принципов работы с API ByBit: авторизация, получение котировок, выставление ордеров.
- Напишем простой торговый скрипт на Python и протестируем его на демо-аккаунте.
🎁Участники вебинаров получат подарки на почту
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤2
📉 The Hidden Cost of Readability
Учёные проверили простой приём: убрать из кода *всё форматирование* перед подачей в LLM — и оказалось, что это экономит в среднем 24,5% входных токенов, при этом точность моделей почти не падает.
🔎 Почему так работает
- Отступы, пробелы и переносы строк помогают людям, но заставляют модель платить больше за каждый токен.
- Они удаляли только косметику, сохраняя смысл программы (контроль через сравнение AST).
- Тест: задача Fill-in-the-Middle на Java, C++, C# и Python.
📊 Результаты
- Большие модели почти не теряют в качестве, маленькие слегка «шатаются».
- В Python экономия меньше, так как пробелы — часть синтаксиса.
- Интересно: даже если на вход подать «смятый» код, модели всё равно печатают красиво отформатированный вывод. Поэтому экономия на выходе мала.
⚡ Решение
- Явный промпт «выводи без форматирования» или лёгкий дообучение на неформатированных примерах.
- В таком случае выходные токены сокращаются ещё на 25–36%, а pass-rate остаётся прежним.
- Авторы предлагают утилиту: она стирает форматирование перед инференсом и восстанавливает после — человек читает аккуратный код, а модель тратит меньше.
📑 Статья: *The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget*
👉 arxiv.org/abs/2508.13666
Учёные проверили простой приём: убрать из кода *всё форматирование* перед подачей в LLM — и оказалось, что это экономит в среднем 24,5% входных токенов, при этом точность моделей почти не падает.
🔎 Почему так работает
- Отступы, пробелы и переносы строк помогают людям, но заставляют модель платить больше за каждый токен.
- Они удаляли только косметику, сохраняя смысл программы (контроль через сравнение AST).
- Тест: задача Fill-in-the-Middle на Java, C++, C# и Python.
📊 Результаты
- Большие модели почти не теряют в качестве, маленькие слегка «шатаются».
- В Python экономия меньше, так как пробелы — часть синтаксиса.
- Интересно: даже если на вход подать «смятый» код, модели всё равно печатают красиво отформатированный вывод. Поэтому экономия на выходе мала.
⚡ Решение
- Явный промпт «выводи без форматирования» или лёгкий дообучение на неформатированных примерах.
- В таком случае выходные токены сокращаются ещё на 25–36%, а pass-rate остаётся прежним.
- Авторы предлагают утилиту: она стирает форматирование перед инференсом и восстанавливает после — человек читает аккуратный код, а модель тратит меньше.
📑 Статья: *The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget*
👉 arxiv.org/abs/2508.13666
❤4🔥3
🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)
💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.
Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор
Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты
📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом
🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.
🟢 Paper: https://arxiv.org/abs/2508.14094
🟢 Github: https://github.com/Pikus16/grpo_difficulty
💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.
Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор
Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты
📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом
🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2
⚡️ Как честно мерить прогресс ИИ на реально «неразгаданных» задачах
Идея
Модели тестируют не учебные экзамены, а настоящие нерешённые вопросы. Сильные LLM выступают валидаторами: они не пишут ответы, а проверяют кандидатов на корректность.
Как собирали набор задач
1) Отобрали вопросы со Stack Exchange без принятого решения.
2) LLM-судьи отсортировали их по ясности и сложности.
3) Доменные эксперты довели пул до ~500 вопросов.
Критерии отбора для каждого вопроса
— well-definedness: цель и термины однозначны;
— difficulty: нетривиально и для сильных моделей, и для опытных людей;
— approachability: достаточно контекста, чтобы серьёзно попытаться;
— objectiveness: ответ можно проверить без мнений.
Как оценивают модели
Вместо генерации финального ответа модели-валидаторы прогоняют кандидатные решения через факт-чеки, циклы согласованности, повторное судейство и агрегирование (например, по большинству или единогласию).
Данные, ответы, результаты валидаторов и отметки сообщества публикуются на открытой платформе, так что оценивание идёт непрерывно.
Что показали результаты
— Лишь около 15% вопросов проходят автоматическую валидацию.
— По наборам ARC-AGI-2, FrontierMath и Humanity’s Last Exam виден большой зазор до уровня человека: у людей результаты существенно выше.
— Цель — одновременно «сложно и жизненно»: избегать старого компромисса, когда тест либо трудный, либо приближен к реальности, но не оба сразу.
— Во всех моделях судейство (validation) стабильнее генерации: заметен разрыв «генератор vs валидатор».
Почему это важно
Каждый валидированный ответ реально закрывает вопрос, который задал живой человек. Такой бенчмарк поощряет настоящий прогресс, а не натаскивание на синтетические экзамены.
Вывод
Оценивайте LLM на открытых нерешённых задачах и засчитывайте очки только за ответы, которые можно объективно проверить.
Статья: “UQ: Assessing Language Models on Unsolved Questions”
https://arxiv.org/abs/2508.17580
Идея
Модели тестируют не учебные экзамены, а настоящие нерешённые вопросы. Сильные LLM выступают валидаторами: они не пишут ответы, а проверяют кандидатов на корректность.
Как собирали набор задач
1) Отобрали вопросы со Stack Exchange без принятого решения.
2) LLM-судьи отсортировали их по ясности и сложности.
3) Доменные эксперты довели пул до ~500 вопросов.
Критерии отбора для каждого вопроса
— well-definedness: цель и термины однозначны;
— difficulty: нетривиально и для сильных моделей, и для опытных людей;
— approachability: достаточно контекста, чтобы серьёзно попытаться;
— objectiveness: ответ можно проверить без мнений.
Как оценивают модели
Вместо генерации финального ответа модели-валидаторы прогоняют кандидатные решения через факт-чеки, циклы согласованности, повторное судейство и агрегирование (например, по большинству или единогласию).
Данные, ответы, результаты валидаторов и отметки сообщества публикуются на открытой платформе, так что оценивание идёт непрерывно.
Что показали результаты
— Лишь около 15% вопросов проходят автоматическую валидацию.
— По наборам ARC-AGI-2, FrontierMath и Humanity’s Last Exam виден большой зазор до уровня человека: у людей результаты существенно выше.
— Цель — одновременно «сложно и жизненно»: избегать старого компромисса, когда тест либо трудный, либо приближен к реальности, но не оба сразу.
— Во всех моделях судейство (validation) стабильнее генерации: заметен разрыв «генератор vs валидатор».
Почему это важно
Каждый валидированный ответ реально закрывает вопрос, который задал живой человек. Такой бенчмарк поощряет настоящий прогресс, а не натаскивание на синтетические экзамены.
Вывод
Оценивайте LLM на открытых нерешённых задачах и засчитывайте очки только за ответы, которые можно объективно проверить.
Статья: “UQ: Assessing Language Models on Unsolved Questions”
https://arxiv.org/abs/2508.17580
❤5👍2🔥2
⚡️ YandexGPT 5.1 Pro
Новая модель от Yandex B2B Tech доступна для бизнеса в Yandex Cloud AI Studio. Она оптимизирована для корпоративных задач: краткие ответы для CRM и отчётов, извлечение данных из документов, поддержка системного промта.
📊 Качество улучшено: 71% хороших ответов (против 60% раньше), количество выдумок снизилось до 16%. Модель также лучше понимает российский культурный контекст и умеет честно отвечать «не знаю».
💰 Стоимость снижена в три раза — 40 коп. за 1000 токенов.
#ml #llm #business
Новая модель от Yandex B2B Tech доступна для бизнеса в Yandex Cloud AI Studio. Она оптимизирована для корпоративных задач: краткие ответы для CRM и отчётов, извлечение данных из документов, поддержка системного промта.
📊 Качество улучшено: 71% хороших ответов (против 60% раньше), количество выдумок снизилось до 16%. Модель также лучше понимает российский культурный контекст и умеет честно отвечать «не знаю».
💰 Стоимость снижена в три раза — 40 коп. за 1000 токенов.
#ml #llm #business
💩6❤5🔥3👍2👎1
Forwarded from Machinelearning
Новая модель для повседневных задач программирования с упором на agentic-coding (циклы рассуждений + вызовы инструментов: grep, терминал, редактирование файлов). Обучена на огромном корпусе кода и дообучена на реальных PR/задачах.
🙌 Модель уже доступна бесплатно на популярных платформах:
GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code, opencode и Windsurf.
Контекст 256k токенов, лимиты: до 2M токенов в минуту и 480 запросов в минуту.
- Новая лёгкая архитектура, разработанная с нуля
- Заточена на скорость и эффективность
- Показвает хорошие результаты в TypeScript, Python, Java, Rust, C++, Go
- $0.20 / 1M входных токенов
- $1.50 / 1M выходных токенов
- $0.02 / 1M кешированных токенов
в 6 раз дешевле, чем GPT-5.
Команда Grok обещает выпускать регулярные обновления и уже тренирует вариант с мультимодальным вводом, параллельными tool-calls и расширенным контекстом.
@ai_machinelearning_big_data
#xAI #Grok #AI #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2💩1
📢 OpenAI опубликовала официальный Realtime Prompting Guide — подробное руководство по работе с новым моделью gpt-realtime для голос-голос взаимодействия в API.
🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые:
● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность
● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха
● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка
● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов
● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением
● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта
● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение
● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения
● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи
● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами
● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов
● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку
⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime.
https://cookbook.openai.com/examples/realtime_prompting_guide
🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые:
● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность
● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха
● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка
● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов
● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением
● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта
● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение
● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения
● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи
● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами
● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов
● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку
⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime.
https://cookbook.openai.com/examples/realtime_prompting_guide
❤5👍1🔥1