Машиннное обучение | Наука о данных Библиотека

📌

Скорость решает все: обзор эффективных архитектур для LLM.

Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.

Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.

Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.

Обзор описывает 7 основных направлений.

🟡

Линейное моделирование последовательностей.

Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).

🟡

Второе и третье направления посвящены идее разреженности.

Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.

🟡

MoE.

Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.

🟡

Четвёртый раздел - эффективное полное внимание.

В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.

Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.

🟡

Гибридные архитектуры.

Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.

В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.

🟡

Диффузионные LLM (DLLM)

Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.

В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.

Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время, а двигаться он будет в сторону микширования алгоритмов, систем и железа, этот обзор - мастрид.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Architectures

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1🔥1

1.45K views20:26

Машиннное обучение | Наука о данных Библиотека

🧪 Новый бенчмарк показывает, как LLM-агенты ломаются на реальных задачах

- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).

⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.

🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.

📄 Статья: https://arxiv.org/abs/2508.14704

❤5👍3🔥3

1.42K views12:00

Машиннное обучение | Наука о данных Библиотека

Forwarded from Анализ данных (Data analysis)

📖 Вечернее чтение

Команда из DeepMind подготовила отличный материал о том, что нужно знать о работе с GPU.

- Разбор архитектуры NVIDIA GPU: SM, Tensor Cores, кеши, HBM.
- Сравнение GPU и TPU: гибкость против специализированной мощности.
- Как устроены GPU-кластеры и коллективные коммуникации.
- Roofline-анализ масштабирования LLM: data, tensor, expert, pipeline parallelism.

🔥 Если вы работаете с масштабированием моделей - мастрид.

👉 https://jax-ml.github.io/scaling-book/gpus/

@data_analysis_ml

❤5👍5🔥3

941 views09:13

Машиннное обучение | Наука о данных Библиотека

📌Приглашаем вас на три бесплатных вебинара курса «ML для финансового анализа»

💎Вебинар №1: «Инструменты тестирования торговых стратегий»

⏰ 27 августа в 20:00 мск

🔹На вебинаре:
- Познакомитесь с инструментами для backtesting’а: от pandas до backtrader и backtesting.
-Узнаете про метрики оценки: доходность, просадка, Sharpe ratio
- Покажем ошибки при тестировании и как их избежать.
- Практика по тестированию простой стратегии и анализу ее метрик.

💎Вебинар №2: «Введение в технический анализ: построение торговой стратегии»

⏰ 4 сентября в 20:00 мск

🔹На вебинаре:
-Узнаете архитектурное решение локального торгового робота
- Познакомитесь с понятием технического анализа
- Практика с актуальными инструментами
- Построения индикаторов на практике
- Первая стратегия на тех. анализе

💎Вебинар №3: «Работа с торговой площадкой ByBit»

⏰ 17 сентября в 20:00 мск

🔹На вебинаре:
- Обзор возможностей платформы ByBit: типы ордеров, торговые пары.
- Разбор основных принципов работы с API ByBit: авторизация, получение котировок, выставление ордеров.
- Напишем простой торговый скрипт на Python и протестируем его на демо-аккаунте.

🎁Участники вебинаров получат подарки на почту

Регистрация на вебинары ➡️ OTUS.RU

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

❤2

1.09K views09:51

Машиннное обучение | Наука о данных Библиотека

📉 The Hidden Cost of Readability

Учёные проверили простой приём: убрать из кода *всё форматирование* перед подачей в LLM — и оказалось, что это экономит в среднем 24,5% входных токенов, при этом точность моделей почти не падает.

🔎 Почему так работает
- Отступы, пробелы и переносы строк помогают людям, но заставляют модель платить больше за каждый токен.
- Они удаляли только косметику, сохраняя смысл программы (контроль через сравнение AST).
- Тест: задача Fill-in-the-Middle на Java, C++, C# и Python.

📊 Результаты
- Большие модели почти не теряют в качестве, маленькие слегка «шатаются».
- В Python экономия меньше, так как пробелы — часть синтаксиса.
- Интересно: даже если на вход подать «смятый» код, модели всё равно печатают красиво отформатированный вывод. Поэтому экономия на выходе мала.

⚡ Решение
- Явный промпт «выводи без форматирования» или лёгкий дообучение на неформатированных примерах.
- В таком случае выходные токены сокращаются ещё на 25–36%, а pass-rate остаётся прежним.
- Авторы предлагают утилиту: она стирает форматирование перед инференсом и восстанавливает после — человек читает аккуратный код, а модель тратит меньше.

📑 Статья: *The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget*

👉 arxiv.org/abs/2508.13666

❤4🔥3

1.2K views11:04

Машиннное обучение | Наука о данных Библиотека

🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢

Paper: https://arxiv.org/abs/2508.14094

🟢

Github: https://github.com/Pikus16/grpo_difficulty

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥2

1.11K views13:00

Машиннное обучение | Наука о данных Библиотека

⚡️ Как честно мерить прогресс ИИ на реально «неразгаданных» задачах

Идея
Модели тестируют не учебные экзамены, а настоящие нерешённые вопросы. Сильные LLM выступают валидаторами: они не пишут ответы, а проверяют кандидатов на корректность.

Как собирали набор задач
1) Отобрали вопросы со Stack Exchange без принятого решения.
2) LLM-судьи отсортировали их по ясности и сложности.
3) Доменные эксперты довели пул до ~500 вопросов.

Критерии отбора для каждого вопроса
— well-definedness: цель и термины однозначны;
— difficulty: нетривиально и для сильных моделей, и для опытных людей;
— approachability: достаточно контекста, чтобы серьёзно попытаться;
— objectiveness: ответ можно проверить без мнений.

Как оценивают модели
Вместо генерации финального ответа модели-валидаторы прогоняют кандидатные решения через факт-чеки, циклы согласованности, повторное судейство и агрегирование (например, по большинству или единогласию).
Данные, ответы, результаты валидаторов и отметки сообщества публикуются на открытой платформе, так что оценивание идёт непрерывно.

Что показали результаты
— Лишь около 15% вопросов проходят автоматическую валидацию.
— По наборам ARC-AGI-2, FrontierMath и Humanity’s Last Exam виден большой зазор до уровня человека: у людей результаты существенно выше.
— Цель — одновременно «сложно и жизненно»: избегать старого компромисса, когда тест либо трудный, либо приближен к реальности, но не оба сразу.
— Во всех моделях судейство (validation) стабильнее генерации: заметен разрыв «генератор vs валидатор».

Почему это важно
Каждый валидированный ответ реально закрывает вопрос, который задал живой человек. Такой бенчмарк поощряет настоящий прогресс, а не натаскивание на синтетические экзамены.

Вывод
Оценивайте LLM на открытых нерешённых задачах и засчитывайте очки только за ответы, которые можно объективно проверить.

Статья: “UQ: Assessing Language Models on Unsolved Questions”
https://arxiv.org/abs/2508.17580

❤5👍2🔥2

1.06K views13:36

Машиннное обучение | Наука о данных Библиотека

⚡️ YandexGPT 5.1 Pro

Новая модель от Yandex B2B Tech доступна для бизнеса в Yandex Cloud AI Studio. Она оптимизирована для корпоративных задач: краткие ответы для CRM и отчётов, извлечение данных из документов, поддержка системного промта.

📊 Качество улучшено: 71% хороших ответов (против 60% раньше), количество выдумок снизилось до 16%. Модель также лучше понимает российский культурный контекст и умеет честно отвечать «не знаю».

💰 Стоимость снижена в три раза — 40 коп. за 1000 токенов.

#ml #llm #business

💩6❤5🔥3👍2👎1

1K views15:02

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🚀

Grok Code Fast 1 — новая модель от xAI, быстрый и недорогой агент для кодинга.

Новая модель для повседневных задач программирования с упором на agentic-coding (циклы рассуждений + вызовы инструментов: grep, терминал, редактирование файлов). Обучена на огромном корпусе кода и дообучена на реальных PR/задачах.

🙌 Модель уже доступна бесплатно на популярных платформах:
GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code, opencode и Windsurf.

Контекст 256k токенов, лимиты: до 2M токенов в минуту и 480 запросов в минуту.

⚡ Особенности:
- Новая лёгкая архитектура, разработанная с нуля
- Заточена на скорость и эффективность
- Показвает хорошие результаты в TypeScript, Python, Java, Rust, C++, Go

💰 Стоимость через xAI API:
- $0.20 / 1M входных токенов
- $1.50 / 1M выходных токенов
- $0.02 / 1M кешированных токенов

в 6 раз дешевле, чем GPT-5.

Команда Grok обещает выпускать регулярные обновления и уже тренирует вариант с мультимодальным вводом, параллельными tool-calls и расширенным контекстом.

🟠

Подробности: https://x.ai/news/grok-code-fast-1

🟠

Гайд по промпт-инжинирингу: https://docs.x.ai/docs/guides/grok-code-prompt-engineering

@ai_machinelearning_big_data

#xAI #Grok #AI #coding

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2💩1

752 views20:51

Машиннное обучение | Наука о данных Библиотека

📢 OpenAI опубликовала официальный Realtime Prompting Guide — подробное руководство по работе с новым моделью gpt-realtime для голос-голос взаимодействия в API.

🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые:

● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность
● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха
● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка
● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов
● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением
● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта
● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение
● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения
● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи
● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами
● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов
● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку

⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime.

https://cookbook.openai.com/examples/realtime_prompting_guide

❤5👍1🔥1

701 views11:39

About

Blog

Apps

Platform