Machine learning Interview

🧠 Андрей Карпаты выпустил интересный пост о масштабировании RL.

Все говорят о масштабировании RL — и не зря. Но ощущение, что это только часть большой картины.

Вчера обсуждали с другом: Reinforcement Learning даёт более масштабируемую обратную связь, чем SFT, и это действительно мощный рычаг. Вместо явных меток — просто: "получилось хорошо → усилим действия", "плохо → ослабим". Но...

🔸 Проблема №1 — асимптотика
Как только задача выходит за пределы секунд и становится минутами/часами взаимодействий, RL сводится к тому, что ты делаешь тонну действий, чтобы в конце получить одну скалярную метку — и по ней обновить весь градиент? Это кажется неэффективным.

🔸 Проблема №2 — не по-человечески
Мы (люди) улучшаемся не только по результату "успех/провал". Мы рефлексируем:
- Что сработало?
- Что нет?
- Что стоит попробовать в следующий раз?

Этот "урок" мы потом либо держим в голове, либо записываем. Он становится частью интуиции или инструкции. В языке это называют *second nature*.
И таких механизмов в обучении ИИ пока нет.

🔍 Пример алгоритма:
1. Несколько rollout'ов
2. Все примеры + награды → в один контекст
3. Промпт на рефлексию: *"Что сработало? Что улучшить?"*
4. Сгенерированная строка → системный промпт или база "уроков"

Это и есть lesson-инъекция. Например, в Claude было явно прописано:
> "Если тебя просят посчитать буквы — раздели по запятым и считай по одному"

Это патч-урок, не выученный, а вручную внедрённый. Вопрос: как заставить агента учить такие уроки сам? И — как потом их дистиллировать, чтобы не раздувать контекст?

🧭 TLDR:
- RL будет давать приросты — оно более “горькое”, но и более leverage‑friendly, чем SFT
- Но это не вся история
- Реальные "S-кривые" могут скрываться в новых парадигмах обучения, которые специфичны для LLM и не похожи на Atari или роботов
- Возможно, "рефлексия → урок → встроенная привычка" — это один из недостающих слоёв в современных системах

#AI #RL #LLM #agenticlearning #meta #reinforcementlearning

@machinelearning_interview

👍17❤11🔥4🍓3🤪1

5.06K viewsedited 11:35

Machine learning Interview

🎁 РАЗЫГРЫВАЕМ MacBook Air!

Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!

Условия участия максимально простые:

🔸Подписаться на телеграм-канал: @machinelearning_interview
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.

ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.

Итоги подведём 14 августа.

Всем удачи! Пусть победит самый приятный человек!

⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».

❤163👍101🔥62🍓28

7.45K views16:38

Участвую

Machine learning Interview

🎓 Новые лекции от UCLA: *Reinforcement Learning of Large Language Models* (весна 2025)

Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.

📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.

Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.

🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения

#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA

🔜

Youtube: https://youtube.com/playlist?list=PLir0BWtR5vRp5dqaouyMU-oTSzaU5LK9r

🔜

Курс: https://ernestryu.com/courses/RL-LLM.html

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33🔥15❤12💯7

6.52K views17:30

Machine learning Interview

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Meta строит ИИ-заводы, а не дата-центры ⚡️

Цукерберг объявил: Meta вложит сотни миллиардов, чтобы построить AI-инфраструктуру нового поколения — с кластерами, тянущими по 1–5 гигаватт каждый. Это уровень атомной станции.

🧠 После заморозки Llama 4, все ИИ-проекты Meta объединены в Superintelligence Labs. Ставка сделана на более масштабные модели, которые требуют не просто «больше серверов», а мини-энергосистемы.

🔌 Первый суперкластер Prometheus запустится в 2026 году. Следом — Hyperion, ещё масштабнее: 5 ГВт и десятки тысяч топовых GPU под одной крышей.

Особенности новой архитектуры:
• Подстанции и грид-интеграция прямо на кампусе
• Рекуперация тепла и жидкостное охлаждение в промышленных масштабах
• Минимальная задержка сети и ускоренные циклы обучения

💸 Уже в 2025 капитальные затраты составят $64–72 млрд — и будут только расти.
Zuck уверен: рекламный бизнес приносит достаточно кэша, чтобы покрыть риск. А команда, в которую входят Александр Ванг и Нэт Фридман, должна обеспечить отрыв от OpenAI и Google.

⚠️ Но есть нюансы: скачки цен на электроэнергию, перебои с чипами — и главный вопрос от инвесторов: когда всё это окупится?

👉 Порог в 1 гигаватт — это не про железо. Это про пределы энергетики.

*Meta признана экстремистской и запрещена в России.

@machinelearning_interview

👍38❤16🥰9🦄5😱2👨‍💻2

5.28K viewsedited 06:19

Machine learning Interview

Forwarded from AI VK Hub

Сегодня рассмотрим статью про метод «определение аппаратно‑программной платформы» (HSPI), который позволяет по вход‑выходному поведению модели машинного обучения определить, на каком GPU и с каким программным стеком она запущена.

Большие языковые модели и современные сверточные нейронные сети требуют существенных вычислительных ресурсов для решения реальных задач. По этой причине популярным решением становится аренда вычислительных мощностей, на которых проходит инференс, например, LLM-ок.

Возникает вопрос: как проверить, что поставщик железа и софта добросовестно выполняет свои обязательства? То есть, не инферит менее поздние модели на более старых видеокартах? Эту задачу попытался решить коллектив авторов из ICL, UoC и Google Deepmind.

Детали

Основная идея работы — посмотреть на задачи классификации и подобрать картинки или промпты, для которых на выходы модели будут влиять как железо, так и софт из-за различия в арифметических операциях, например — округления.

В контексте задачи классификации отличие двух архитектур будет ярко проявляться на границе между двумя классами, когда различные способы округления и упорядочивания в арифметических операциях будут приводить к различиям в классе, который предсказывает модель.
Авторы рассматривают два алгоритма: HSPI-BI (работает только на лейблах, предсказанных моделькой) и HSPI-LD (работает с вероятностями принадлежности определенному классу).

Результаты

Рассматривалось два сценария: White-Box — когда есть доступ к значениям в каждом нейроне, и Black-Box — когда есть доступ только к выходу модели. В качестве бэйзлайна рассматривался Random Guess. Авторам удалось существенно превзойти точность случайных угадываний в обеих постановках: в White-Box-сценарии точность детектирования типа железа и софта варьировалась от 83% до 100%. В Black-Box-сценарии удалось превзойти random guess примерно в три раза: 25% против 60%.

Авторы планируют дальше развивать предложенный ими метод, так как некоторые архитектуры неразличимы для текущей версии алгоритма. Кроме того, не исследована зависимость результатов от размера батча, что планируется исследовать в будущем.

Предыдущие обзоры статей с ICML от команды AI VK:

🔸

Высокопроизводительные трансформеры на базе MatMuls;

🔸

Проблемы оценки качества наборов данных для графового машинного обучения

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12👍5❤4

2.35K views11:03

Machine learning Interview

📈 Awesome-TS-anomaly-detection — это исчерпывающая подборка инструментов и датасетов для детекции аномалий в временных рядах. В списке представлены как активно поддерживаемые решения (PyOD, Luminaire, Orion), так и архивные проекты от компаний вроде Twitter и Yahoo.

Репозиторий имеет удобный раздел с бенчмарк-датасетами, включая Numenta NAB и Yahoo S5. Проект будет полезен ML-инженерам и исследователям, работающим с анализом временных данных.

🤖 GitHub

@machinelearning_interview

👍21❤2🔥1

2.34K views13:05

Machine learning Interview

📌 Задумывались, насколько хорош ModernBERT по сравнению с декодерами вроде LLaMA?

Результаты оказались неожиданными: их энкодер-модель превзошла оригинальный ModernBERT, а декодер — даже LLaMA 3.2 и SmolLM2

Модели серии называются Ettin — от 17M до 1B параметров, при этом даже самая компактная поддерживает контекст в 8k токенов.

Особенности проекта:

— Честное head-to-head сравнение encoder vs decoder моделей с одинаковыми SOTA-рецептами
— Энкодеры по-прежнему выигрывают в задачах классификации и поиска, даже по сравнению с существенно более крупными декодерами
— Обучение всех моделей проводилось на академических мощностях: 4×H100 на каждую, 17M-модель можно натренировать на 2T токенов менее чем за неделю
— Выложены 200+ чекпоинтов с точной историей данных между ними, доступных в raw-формате для дообучения и анализа

Разработчики подчёркивают: даже при росте популярности декодеров, энкодеры всё ещё актуальны и конкурентоспособны, особенно при больших объёмах данных и долгих тренировках.

📎 Статья: https://arxiv.org/abs/2507.11412
💻 Код и данные: https://github.com/JHU-CLSP/ettin-encoder-vs-decoder
📖 Блог на HuggingFace:https://huggingface.co/blog/ettin

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍11🔥5☃1

2.07K views16:24

About

Blog

Apps

Platform