Книжный куб

[1/2] John Schulman on dead ends, scaling RL, and building research institutions (Рубрика #AI)

Посмотрел очередной эпизод подкаста "Cafe Cursor", в котором общались Michael Truell и John Schulman. Майкл - это со-основатель Cursor, а John - со-основатель OpenAI и человек, предложивший RLHF (reinforcement learning from human feedback), технологию, лежащую в основе ChatGPT. Сейчас Джлн в Thinking Machines в роли chief scientist. В этом подкасте Джон делится инсайтами о том, как всё было устроено в OpenAI с 2016 года, что пошло не так, и куда движется reinforcement learning. Основные моменты интервью ниже

1️⃣ Speedrunning ChatGPT: могли бы сделать в 2018
Шульман считает, что с полным hindsight ChatGPT-3.5 можно было собрать ещё в 2018–2019 силами 2–3 человек на паре GPU-боксов. Секрет не в масштабе compute, а в умном post-training: правильный fine-tuning датасет компенсирует меньшую модель. Сравнивает с nanoGPT (один человек, один бокс, полгода). Вывод: масштабирование важно, но умные трюк > брут форса.

2️⃣ Ранний OpenAI
В 2016–2017 OpenAI был как академическая группа люди работали по 1–3 человека над whitepapers по своему вкусу. Например, был интересный проект Universe как попытка создать универсального RL-агента на сотнях видеоигр и веб-задач. Идея была правильной, но на 10 лет опередила время - тогда модели не генерализовались, система была неукдюжей. Позже пришли результаты в Dota и Procgen (эмуляция игр). Направление роботов тогда тоже было тупиковым, но полезным - оно прокачало команду на больших engineering-проектах и обучило людей системной работе.

3️⃣ Почему value functions не в моде?
В современном RLHF и verifiable rewards (даже на 10k+ токенов) функции ценности (value functions) не сокращают вариативность. Шульман ждёт их камбека, но пока Policy Gradient-методы побеждают на коротких горизонтах.[1]

4️⃣ Continual learning: long context + LoRA
По мнению Джона для непрерывного обучения нужны два фактора
1. In-context learning (long context) - для быстрого, short-horizon.
2. Parameter fine-tuning (LoRA) - для long-horizon knowledge, требующего ёмкости.
Scaling может решить проблему и без новых идей, но Шульман ждёт прорывов, которые сдвинут scaling laws.

5️⃣ Brittle generalization: люди vs модели
Модели круты in-context (как люди), но хуже на длинных горизонтах - застревают, где человек способен к само-коррекции. Почему? Люди заточены эволюцией на 80-летний таймлайн. Неясно, это временное или фундаментальное ограничение. Тестировать на десятилетия эквивалентно запуску evals на декады, что проблематично

6️⃣ Будущее reinforcement learning: GANs 2.0 и multi-agent игры
Шульман ждёт возврата идей из 2010-х:
- Co-training generators + verifiers (как GANs) - это про самоусиливайщийся цикл: лучше reasoning → лучше verifier → лучше generator.[1]
- Multi-agent games** (zero-sum/debate) - автоматический curriculum + теоретические гарантии из complexity theory (polynomial judge создаёт стимулы для сложных проблем (условно, NP-проблем)). Debate game от OpenAI/Anthropic - недооценённая идея.

В продолжении я расскажу про другие интересные тезисы, навроде подходов к руководству исследованиями или замедления получения прорывных результатов.

#Engineering #AI #Metrics #Software #Architecture #RnD #ML

YouTube

John Schulman on dead ends, scaling RL, and building research institutions

A conversation with John Schulman on the first year LLMs could have been useful, building research teams, and where RL goes from here.

00:00 - Speedrunning ChatGPT
09:22 - Archetypes of research managers
11:56 - Was OpenAI inspired by Bell Labs?
16:54 -…

❤6👍6🔥2

1.89K viewsAlexander Polomodov, edited 05:08