Интересное что-то

59 views18:30

Agent Reinforcement Fine Tuning – Will Hang & Cathy Zhou, OpenAI

Forwarded from max.sh

📱

канал AI Engineer

В посте выше я ссылался на доклад с AIE митапа. Так вот, у них есть болшой YT канал с очень годным контентом от передовых лаб и AI стартапов.

Канал тут.

Выступления все в среднем по 20 минут и крайне прикладные. Тут вы никогда не увидите формул, глубоких деталей методов или какие-то строгие специфичные eval-ы. Но можно зацепить много идей, посмотреть что делают в индустрии, набраться ключевых слов и ссылок и потом пойти копать дальше.

Большой дисклеймер: Да, крутого контента много, но еще больше бесполезного маркетингового мусора, которое слово в слово дублирует какой-нибудь релиз. Благо, видео короткие, можно быстро отсеять.

Мне, например, очень понравились доклады про разный RL, многие совсем свежие:

1. OpenAI про Agent RL, во второй части доклада рассказывают про пилоты с реальными кастомерами
2. Про эффективный RL, где боттленеки обучения, где простаивают GPU
3. про обучение своих агентов с помощью RL, вот тут вообще кайфовый case study от сбора данных до reward-hacking-ов

Happy Learning!

—
кстати, митапы проходят не только в SF, но и в других локациях. В этом году состоялся первый в Париже и несколько прошло в Лондоне. Здесь все скромнее по масштабу, но все равно очень интересно. Запланировал выступить в следующем году на таком.

#образование

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Deep dive into OpenAI's approach to reinforcement fine-tuning for code models.

https://x.com/willhang_
https://x.com/cathyzhou

AIE is coming to London and SF! see dates and sign up to be notified of sponsorships, CFPs, and tickets: https://ai.engineer
…

64 views18:30

#mlops

61 views18:57

ClearML Agent: обучение модели в Google Colab - DeepSchool

Forwarded from DeepSchool

ClearML Agent: обучение модели в Google Colab

Продолжаем обзор MLOps-экосистемы ClearML, которая покрывает полный цикл разработки и выкатки ML-моделей. Ранее мы разобрали, как работают компоненты ClearML Data и ClearML Session.
А в новой статье рассказали о ClearML Agent — компоненте, который позволяет отправлять задачи в очередь и исполнять их на удалённых машинах. 📡

Из статьи вы узнаете:
- как работает ClearML Agent
- как использовать Google Colab в качестве воркера для ClearML 🍯
- и как можно добавлять задачи в очередь для ClearML Agent

Читайте новую статью по ссылке!👈

🪔

DeepSchool

Please open Telegram to view this post

VIEW IN TELEGRAM

DeepSchool

Рассказываем о ClearML Agent: как он работает, как использовать Google Colab в качестве воркера и как можно добавлять задачи в очередь

60 views18:57

#llm #agents #petproject

60 views19:08

Forwarded from Agentic World

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, потому что в прямом переводе получался сложночитаемый булшит.

Если вы знаете, что такое бейзлайн и как делаются бенчмарки, то можно не читать, но в целом как легкое напоминание о важности постоянной оценки шагов выполнения LLM-based штук — вполне ничего 🤗

https://habr.com/ru/articles/969358/

LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей...

64 views19:08

#llm #agents #petproject

66 views19:59

Forwarded from Agentic World

Написал вчера пост про LLM Observability и трейсинг агентов 🤗

Основное:
1) Почему обычных инструментов уже не хватает для LLM
2) Про попытки изобретения стандарта трейсинга агентов
3) Основные типы трейсов
4) Обзор ключевых инструментов (как обычно в топе что-то из экосистемы Lang)
5) По верхам про архитектурные изменения и основныхе проблемы агентов

Максимально попытался уложить больше смыслов в текст, поэтому глубоко рекомендую!

https://habr.com/ru/articles/972480/

LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая и тяжелая статья, но мне хотелось полностью закрыть всю тему за...

80 views19:59

72 views19:59

Forwarded from Agentic World

Три самые постоянные вещи в мире — оливье с мандаринами на Новый год🍊🌲, желание начать новую жизнь с понедельника🏃💪 и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский 🤩

🤩

Особенно прикольно, что она про дипсик, — а я очень люблю то, как китайцы делают свои модели и как описывают этот процесс. Сделал перевод крутейшей технической статьи о внутренностях нового DeepSeek V3.2 и о том, как команда архитектурно к нему пришла:

https://habr.com/ru/articles/973954/

Please open Telegram to view this post

VIEW IN TELEGRAM

Технический обзор моделей DeepSeek от V3 до V3.2

Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на...

76 views19:59

65 views05:27

Forwarded from AbstractDL

Virtual Width Networks

Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.

Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.

На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.

VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.

Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.

Статья

67 views05:27

#search

54 views05:59

Forwarded from Pavel Zloi

Векторный поиск: как выбрать систему и не пожалеть

От поиска по архивам документов и медиафайлам до рекомендательных систем и AI приложений — всюду работают эмбеддинги и векторный поиск. Но когда дело доходит до выбора конкретного инструмента, глаза...

Хочу порекомендовать одну отличную публикацию "Векторный поиск: как выбрать систему и не пожалеть" на Хабр, там автор очень подробно рассказал о том как работает векторный поиск, как формируются векторы, как выполняется поиск, какие движки бывают.

Особый интерес представляет финальный бенчмарк большинства популярных решений для векторного поиска, тестирование проводилось на тему потребления ресурсов, времени отклика, скорости запуска и так далее.

В общем очень годная публикация, которая пригодится всем кто задумывается о перфомансе систем векторного поиска.

61 views05:59

53 views06:00

Forwarded from Душный NLP

Как заставить reasoning-модели меньше галлюцинировать (часть I)

Авторы сегодняшней статьи пытаются ответить на вопрос: можно ли обучить стратегии рассуждения, повышающие фактическую точность (R-)LLM? Отмечено, что reasoning-модели решают математические задачи и пишут код, но в длинных фактологических ответах галлюцинируют больше, чем обычные не-reasoning-версии этих же моделей.

Так, например DeepSeek-R1 и QwQ-32B выдают на 10–13 п.п. больше галлюцинаций, чем соответствующие базовые не-reasoning-версии DeepSeek-V3 и Qwen-2.5-32B на шести датасетах, созданных для проверки фактологичности длинных ответов. В первой части разбора обсудим проблему, заявленную в статье, и метод, предложенный авторами. А во второй — результаты и некоторые выводы.

Проблема в том, что стандартный RL для reasoning-моделей заточен под верифицируемые задачи, для которых награда вычисляется по заранее определённым правилам и проверку которых можно автоматизировать (математика, код). А для ответов, содержащих фактологическую информацию, не существует ни надёжной автоматической проверки (как в RLVR), ни возможности звать человека для проверки.

Эти трудности сильно ограничивают использование фактчек-сигнала в алгоритмах online-RL. Попытки автоматизировать фактчек с помощью FActScore/VeriScore в online-RL-сетапе приводят к «хакингу награды»: модель начинает писать слишком кратко (меньше фактов — меньше шансов ошибиться) или выдаёт длинный, но слабо связанный с вопросом поток общих, пусть и верных, сведений.

Так можно ли обучить стратегии рассуждения, повышающие фактическую точность (R-)LLM? Чтобы ответить на вопрос, авторы используют следующий подход.

Для получения обучающих промптов предлагают интересный ход: инженеры генерируют промпты с помощью Llama 4, обуславливая её на два множества grounding-промптов. Первый набор — WildChat (разнообразные реальные запросы пользователей), второй — LongFact (запросы, требующие фактологически точных ответов). Таким образом получается собрать порядка 7 тысяч синтетических промптов: 3 тысячи для SFT, 4 тысячи для RL, которые похожи на реальные запросы пользователей и в то же время требуют фактологически точных ответов.

Затем делают SFT: фью-шотят базовую Llama-3.1-8B-Instruct для генерации 10 Long-CoT-ответов в формате <think>…</think><answer>…</answer>, их прогоняют через VeriScore и берут ответ с наибольшей наградой за фактологическую точность.

Затем в качестве бейзлайна используют DPO: для сбора пар для обучения аналогично методу в SFT используется VeriScore c небольшой модификацией — берутся пары ответов с максимальной дельтой награды VeriScore и удовлетворяющие условиям:

1) дельта награды должна быть выше определённого порога, чтобы фактчек-сигнал был достаточно сильным;
2) разность длин ответов должна быть меньше определённого порога, чтобы не было «хакинга длины».

Для онлайн-RL в качестве нововведения предлагают награду, которая состоит из трёх слагаемых:

— фактическая точность (Pre): F/(T+1), где F — число подтвержденных фактов, T — всего найденных фактов в ответе (извлекаем их с помощью LLM) (для штрафа за фактологически неверные ответы);
— детальность (Dtl): log(1+F) — поощряет больше правильных фактов, но с дисконтированием на длину (для штрафа за слишком короткие ответы);
— релевантность/полезность (WR): LLM-as-a-judge-метрика — ответ политики сравнивается с ответам реверенсной модели, если судья считает, что ответ политики лучше, то метрика принимает значение 1, в противном случае — 0 (для штрафа за наличие нерелевантных верных фактов).

Чтобы такой reward можно было считать в онлайне, сильно оптимизируют VeriScore: батчуют извлечение фактов, параллелят веб-поиск и так же батчуют проверку утверждений поверх поисковой выдачи. Это позволяет сократить время инференса реворда с двух минут (базовый сетап VeriScore) до примерно пяти секунд на один ответ, что уже пригодно для online-RL. Полученный подход уже используют в GRPO-алгоритме в качестве модели награды.

Разбор подготовил ❣ Дмитрий Масный

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

45 views06:00

Forwarded from Душный NLP

Как заставить reasoning-модели меньше галлюцинировать (часть II)

Продолжаем разбирать статью Learning to Reason for Factuality. В первой части рассказали о проблеме и самом методе, а сегодня — о результатах и интересных выводах.
Оценка происходила на шести сложных бенчмарках фактологических ответов: LongFact, FAVA, AlpacaFact, Biography, FactBench-Hard и Factory-Hard.

Базовая Llama-3.1-8B даёт в среднем 45% фактической точности и 23,5 подтверждённых факта на ответ. После полного пайплайна (SFT + online GRPO с новым ревордом) модель достигает 68,1% фактической точности (Pre), при этом детальность ответа (Dtl) возрастает до 29%, а релевантность - составляет ~54%. Таким образом, в описанном сетапе ризонинг-версия модели стала меньше галлюцинировать без потери полезности относительно своей не-reasoning-версии.

В отличии от online-RL-сетапа «SFT + DPO»-эксперимент сильно просаживает полезность ответа, при примерно таком же качестве детальности (Dtl) и фактической точности (Pre) (сравнивая с SFT + GRPO). Это делает предложенный авторами подход довольно актуальным.

Кроме того, авторы попробовали определить meta-reasoning-страгении в CoT-рассуждениях модели. Для этого использовали Llama-3.1-70B-Instruct. Выяснилось, что стратегии ризонинга для повышения фактологичности ответов модели сильно отличаются от стратегий, которые используются в решении математических и кодинг-задач.

Так, например, наиболее частые стратегии решения математических задач — self-verification, exploration, calculation and backtracking, в то время как для описанного online-RL-подхода основными стратегиями являлись: synthesis, summarization, explanation, evaluation. Этот факт может быть одной из причин большего галлюцинирования ризонинг-моделей, которые обучаются в RLVR-сетапе на задачах математики и кода, на запросах, требующих фактологической точности.

Разбор подготовил ❣ Дмитрий Масный

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

49 views06:00

#datasets

42 views06:00