Сиолошная
50.6K subscribers
933 photos
168 videos
1 file
1.11K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.iss.one/+i_XzLucdtRJlYWUy
Download Telegram
Не мог (не хотел 😀) уснуть, и из интереса решил накопать побольше информации про загадочную gpt2-chatbot, совсем недавно удивившую общественность. Перечитал обновлённый блогпост, новости, перерыл с десяток Reddit-тем, новых интервью Sam Altman, etc.

Тезисно:
— Sam не первый раз говорит, что слово «сюрприз» не должно идти рядом с AI, и OpenAI хотят итеративно улучшать свои технологии, делая их достоянием пользователей (хоть бы и через платный продукт в виде подписки на ChatGPT). Такой путь гораздо лучше для общественности, чем если пару лет не будет новостей, а потом бах, GPT 6, и все сидят такие 😨
— GPT-4 сейчас, полгода назад и на релизе — это три разные модели. Со временем они становились лучше и лучше, как по Эло-рейтингу от LMSYS, где живые люди сами сравнивают генерации моделей и выбирают те, что нравятся им больше, так и по объективным бенчмаркам (например). Вчера вот узнали даже, что OpenAI вроде как не переобучаются конкретно на датасеты для проверки, по крайней мере по математике — доверимся им, что и по другим метрикам никаких грязных трюков нет.
— Последнее улучшение модели было направлено на способности к рассуждению и решению задач, особенно по математике.
— Однако об улучшениях в написании кода не заявлялось. И именно этим выгодно отличается модель gpt2-chatbot. Видел, что люди говорили про разношёрстные вопросы, мол, «она на уровне четвёрки, не лучше», но вот про код...я сам узрел, как с первого раза мне написало очень клёвый пример простого рейтрейсинга сцены с несколькими объектами. БЕЗ ОШИБОК. И большая часть примеров, которыми хвастались люди (и на реддите, и вот даже Denis Sexy IT), где прям ВАУ — это именно примеры с кодом.
— При этом получить модель уровня GPT-4 не так-то и просто, на данный момент это удалось сделать 2.5 компаниям (META'е дадим скидку и предположим, что их LLAMA 3 на 405B, выходящая летом, будет соответствовать). Конечно, может появиться новый игрок, но это маловероятно.
— А теперь самое интересное. Почему можно предположить, что новая модель именно от OpenAI? Тут есть несколько косвенных признаков. Первое: в ней используются те же специальные токены начала/конца реплики, что и у всех моделей OpenAI. Модели Mistral и LLAMA отличаются. Второе: и сама модель так говорит, и в промпте у неё написано, что она от OpenAI. Это, конечно, может быть галлюцинацией, но фронтир модели в таком не были уличены (почти, иногда Mistral грешит) — только те, что были натренированы на синтетике. Третье (и главное): если добиться ошибки сервера своим запросом (например, длиной запроса или его темой, чтобы он не прошёл модерацию) — будет показана ошибка один-в-один, что и у любой другой модели OpenAI. Однако все остальные модели имеют отличные сообщения о возникших неполадках.
— Так что (я уверен на 99%) это модель OpenAI, которая лучше в кодинге, что логично. И тянет на грядущую итерацию, но не GPT-4.5 и тем более не GPT-5. Это подтвердил Sam Altman в ходе своего тура по университетам США, думаю, тут ему можно верить в силу аргументов выше.
— Вероятно, её релиз должен быть совсем скоро, в течение месяца. Как мне видится, через Арену собрали примерную оценку, чтобы на презентации или в релизных заметках написать: «Да, наша модель оч крутая, вот независимое подтверждение на всеми признанном лидерборде». Так как на всё про всё ушло всего 3 дня — делать такую оценку сильно заранее не имеет большого смысла: за это время модель можно дообучить, собрать данные, то да сё. В общем, улучшить. Тогда бы уж ту и проверяли!
🔽 продолжение
Please open Telegram to view this post
VIEW IN TELEGRAM
🔼 продолжение 👆
И на этом можно было бы и закончить пост, сидеть ждать релиза, если бы не три НО.
1) уже как месяца три ходят слухи, что OpenAI готовится к запуску своего поисковика. Предположительно, LLM вместо вас кликает по ссылкам, делает доп. запросы, читает выдачу и формирует ответ. В некотором смысле, это продвинутая реализация уже существующей фичи. Модель, умеющая рассуждать и кодить будет как нельзя кстати!
2) буквально вчера выяснилось, что домен search.openai.com уже занят, для него существует SSL сертификат.
3) главный инсайдер по OpenAI Jimmy Apples написал, что 9-го мая OpenAI проведёт анонс «не новой модели, но поискового движка».

Посмотреть находки ещё одного инсайдера, прямо с гифками и картинками потенциального дизайна, можно в Твиттере тут. Для OpenAI заточка модели под сёрфинг интернета не станет новинкой — ещё в 2021-м они сделали WebGPT, которая искала и объединяла информацию лучше, чем это делали люди. Я про неё целый лонг писал (он был первым!), ознакомиться можно тут: https://habr.com/ru/companies/ods/articles/709222/

Ну теперь вот уж точно сидим ждём!
Please open Telegram to view this post
VIEW IN TELEGRAM
DrEureka: Language Model Guided Sim-To-Real Transfer

Развитие идей Eureka, одной из трёх самых интересных работ за 2023-й год по моему мнению. Результатом выступает модель, обученная полностью в симуляции, и которую можно развернуть на настоящем робо-псе, чтобы тот отыгрывал роль девочки на шаре.

И оригинальная работа, и эта слишком сложны, чтобы тут их взять раскидать на пальцах, поэтому я лишь очень тезисно напишу, что делается, и почему это круто.

В такой задаче много сложностей и вопросов, некоторые из основных:
1) как запрограммировать функцию для обучения, чтобы очень точно описывать наше желание бота научиться стабильно управлять конечностями?
2) как предусмотреть разные сценарии и адаптировать модель к разным поверхностям, внешним условиям, etc.?

Раньше (в эпоху демок Boston Dynamics 10-летней давности) всё прописывалось вручную человеком, это было крайне сложной задачей. Оригинальная Eureka решала первую проблему: в работе GPT-4 подрядили генерировать код, который оценивает качество и предоставляет обратную связь модели во время обучения. Уже тогда LLM показали себя лучше людей — они гораздо лучше оперировали большим количеством сложных переменных (например, углом поворота отдельных конечностей, и прочего). А ещё этот процесс происходит итеративно: LLM видит оценки моделей, обученных максимизировать награду, написанную ей же, и придумывает, что и как изменить/улучшить.

Как вы догадались, DrEureka идёт дальше: предлагается использовать GPT-4 для высвобождения человека от необходимости делать что-то для ответа на второй вопрос. В этих экспериментах LLM ещё и выбирает оптимальные параметры симуляции, в рамках которой учится модель, которую развернут на робо-псе. Скажем, модель может посчитать, что иногда нужно подкрутить гравитацию до 0.98, иногда докинуть пару кило «телу» пса, а иной раз и вовсе затруднить движения конечностями. Как результат обучения в постоянно меняющихся (в рамках разумного) условиях мы получаем очень робастную модель, которая готова к разным ситуациям.

Главная ценность — мы убираем человека из цикла разработки новых навыков, бОльшая часть происходит автономно. Мы говорим LLM сгенерить такие-то и такие-то вещи, ставим симуляцию, пьём кофе и на выходе получаем работающую систему. Следующий шаг — это прикрутить анализ видео из симуляции, чтобы GPT-4 (или будет уже 4.5?) ещё лучше понимала слабые места описываемой стратегии, и точнее меняла функцию награды при обучении.
Media is too big
VIEW IN TELEGRAM
После тестирования на уже существующих задачах исследователи захотели опробовать что-то, чего ещё никто не делал. Нужно было взять такую задачу, для которой люди не решали вышеописанные проблемы (чтобы проверить, насколько масштабируем подход, насколько ему легко генерализоваться). И именно тут им и пришло в голову поставить робо-пса на шар для йоги.

Что интересно, в симуляторе, насколько я понял, не было возможности сделать упругий деформируемый шар, потому они сделали его статическим. И ЭТО СРАБОТАЛО, из-за случайного (на самом деле осмысленного с помощью LLM) выбора параметров при обучении в симуляции пёс научился балансировать. Причём настолько хорошо, что даже если ногой бить по шару — он не упадёт, хоть в симуляции такого и не было!

«Тяжело в учении — легко в бою!» — один из девизов работы. Из-за разнообразия параметров симуляции, робо-пёс мог стоять на шаре в среднем 10 секунд. А в реальной жизни (без дообучения, просто скопировали модель, отвечающую за управление) — 15 секунд. Правда к работе также приложено четырехминутное видео, где есть отрывки сильно длиннее. Как я понял, 15 секунд — это показатель в лабораторных условиях, где пространство ограничено, а сверху привязан трос (мб он немного мешает, хз). Ну или пол просто слишком твёрдый 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Tesla опубликовали новое видео с Optimus, в котором робот учится укладывать батарейки в ящик.

Но самое интересное в видео — это процесс обучения на человеческих демонстрациях. Первую часть видео с демо я обрезал как раз для того, чтобы сфокусироваться на этом. Люди стоят в рядах в шахматном порядке: 1 бот, 1 человек в в VR-гарнитуре. Оператор видит то, что видят камеры робота, и аккуратно манипулирует своими руками для того, чтобы эти действия перенеслись на робота. Повторить несколько сотен-тысяч раз, и в теории навык готов — теперь бот может делать эту задачу. А чем больше разнообразных задач будет показано, тем большим будет обобщение (про это писал в рамках разбора работы от Google).

Интересно, тренируется ли базовая модель на видео из интернета, и если нет, то какие наработки ведутся в том направлении? Ну, а если трюк с обучением на ютубе и тиктоках не выгорит — тогда нам придется запрягать сотни детей людей в виртуальные миры, чтобы генерировать данные для дообучения 🤷‍♂️Можете представить себе фабрики, где тысячи людей посменно работают в VR? 🤯

Будем ждать технического апдейта в этом году, где (обычно) рассказывают побольше!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
===Объявление=== В ближайшие 2 месяца мне потребуется помощь. Я немного устал делать презентации для лекций (именно слайды в PowerPoint), уже тяжело смотреть на них, искать картинки, итд. Поэтому я ищу себе помощника (одного), который может взять от меня…
Днём закончил отбор людей, которые помогут мне с презентациями. Всем спасибо, кто откликнулся — пришло 55 заявок, что на 50 больше, чем я ожидал! В итоге, выбрал двух людей (так надёжнее 🙂). Если я не отписал вам в личку — значит, вы не прошли, простите(
Но всем и каждому выражаю благодарность за проделанную работу и отклик!

Решил немного рассказать про то, как делал отбор. Сначала я поигрался с фильтрами — так как кандидатов было много, то я не боялся отсечь кого-то лишнего. Значимую часть убрала фильтрация по языку — спасибо тем, кто честно и искренне заполнил это поле. Немного расчистил мусор, убрал те, где у меня нет доступа к презентациям (и такие были!) и остался один на один с 27 заявками. Это всё ещё больше, чем я ожидал 😥

Что делать и как быть? как выбрать? Я решил воспользоваться решением задачи о разборчивой невесте (представляете, такая есть!). Суть задачи — есть невеста, есть последовательный набор кавалеров. Требуется найти решение, с наибольшей вероятностью приводящее к выбору самого лучшего претендента. Оптимальное решение — отклонить всех первых ~37% кандидатов и затем выбрать первого попавшегося, который будет лучше всех предыдущих 😑😱

Я немного изменил принцип (зачем отклонять???). Сначала открыл случайные 10 (27/2.718) презентаций, чтобы получить примерное представление о том, какое качество стоит ожидать и на что надеяться — прямо как у невесты, нужно было, кхм, прощупать почву. А затем я вернулся в начало списка и прошелся по всем, выставляя оценки от 1 до 10. Было 5 работ с оценкой 7 и одна с оценкой 8. Я перепроверил, что презентации с оценкой 6 действительно мне нравятся чуть меньше, чем 7-ки (чтобы тут никого хорошего не отсечь).

Дальше стоял выбор: как из этого определить финального кандидата или кандидатов? Получилось так:
— сделал скриншоты слайдов (5 штук, решение с 8 баллами сразу отложил)
— разослал их группе людей, на чье мнение опираюсь (размазал ответственность)
— попросил выстроить порядок от лучшего к худшему. Условно получал строчку 1>3=4>2>5, то есть первая лучше третьей и четвертой, которые лучше второй и лучше пятой.
— далее собрал от всех такие цепочки и...скормил их в ChatGPT (😱), попросив написать функцию определения среднеобратного ранга (MRR) для каждого номера презентации. То есть это величина, обратная тому, на каком месте располагаются в ранжировании объекты.
— проверил, что код работает корректно - GPT-4 всё сделала с первого раза!
— иии...всё, осталось только написать в личку людям 👍

Вот так я выбрал исполнителей, а вы узнали сразу про две интересные штуки (невесту и MRR).
Жду GPT-5, чтобы ей аутсорсить процесс ревью и отбора кандидатов, блин.

Будем работать 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from hypewave
BREAKING: Hades 2 вышла в раннем доступе на PC

С вас 1100 рублей
Либо нас тролят, либо хз — но король вернулся какая-то im-also-a-good-gpt2-chatbot появилась на Арене! Название модели — отсылка к твиттам Sam Altman (1, 2).

Когда увидел на реддите — я подумал, что это кто-то фотошопил, да и в Direct Chat модели нет, на неё лишь можно наткнуться во время сравнения левых и правых ответов.

Возможно, это та же модель, но чуть-чуть иначе обученная, или она меньше, или наоборот больше — хз, я пока сделал один запрос. Формат ответа отличается от того, что я видел (модель не пишет последовательно кусками — выдала всё за раз). Код ещё не запустил, но на глаз выглядит не хуже того, что у меня было в прошлый раз.

Я отвечаю, бегите тестировать запросы на написание кода, очень удивитесь.

[любимым подписчикам которые писали эту новость в чат 6 часов назад — простите, я спал]

UPD: да, нормальный цветной рейтрейсинг с первого раза заработал. Мне не очень понравилась организация кода, там не так легко сцену изменить, и нет глубины рендеринга (сколько раз отслеживать отражение луча). Если судить по одному этому датапоинту, то эта модель немного слабее старой. Но выводы делать рано на самом деле.
Сиолошная
Либо нас тролят, либо хз — но король вернулся какая-то im-also-a-good-gpt2-chatbot появилась на Арене! Название модели — отсылка к твиттам Sam Altman (1, 2). Когда увидел на реддите — я подумал, что это кто-то фотошопил, да и в Direct Chat модели нет, на…
Модель стопроцентно от OpenAI, выкинуло ошибку со ссылкой на их документацию.

Ранее я писал, что gpt2-chatbot тоже некоторые ошибки (которые люди успели получить) отдавал в формате их API. Но прям ссылок на документацию не было.

UPD: не всё так однозначно — подписчик указал, что и для LLAMA-3 иногда такая же ошибка может вылететь. Я видел, что формат ошибок для других моделей другой, и вот ровно такое мне не попадалось на глаза 🤷‍♀️ а может это чисто авторы Арены нас газлайтят, как знать
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Мало кто знает, но из-за меня Денис не пошёл на пробежку 😎
С кем поведёшься...


Achievement unlocked
Please open Telegram to view this post
VIEW IN TELEGRAM
Neuralink поделились обновлением касательно их первого пациента. С момента вживления чипа почти полностью парализованному человеку прошло 100 дней, и с ним всё в порядке.

Через пару недель после операции видел разные обсуждения в ТГ и на реддите, мол, на самом деле там уже ничего не работает, электроды отклеились, и даже что вместо считывания сигнала мозга на самом деле там происходит считывание движений глаз. Однако если верить посту — то всё в порядке. Noland продолжает играть в видеоигры и даже начал обыгрывать своих друзей — причём не только на PC, но и на портативной приставке Nintendo Switch.

Управление можно осуществлять в любом положении — лежа, сидя, на боку и так далее — и это важно, так как метод, с которым он жил несколько лет (специальный стик во рту) сильно ограничивал свободу, но зато увеличивал требование к близким людям вокруг. «Это дало мне возможность снова делать что-то самостоятельно, не нуждаясь в семье в любое время дня и ночи» — говорит Noland.

У пациента регулярно (почти каждый рабочий день) проходят сессии работы с инженерами Neuralink, а в выходные он занимается своими делами — суммарно даже больше, чем в будни! Бывают дни, когда Noland пользуется нейроинтерфейсом по 12 часов в день, а за неделю вообще натекло 69 часов (в среднем по 10 в день). Однако на графике активности действительно видно спад в первой половине марта. Действительно, компания признаёт, что через некоторое время после операции несколько «нитей» (всего их 64, суммарно хранят 1024 электрода) потеряли контакт и перестали считывать сигналы.

Но и инженеры ведь не спят — и в ответ на это они пошаманили с алгоритмами, допилили механизм преобразования сигнала в движения мыши, и теперь всё на уровне даже выше прежнего. Чтобы это оценивать, пациент играет в игру — на огромной сетке то и дело загораются маленькие квадратики, и нужно привести к ним мышку и нажать. Уже во время первой сессии почти сразу после операции у Noland'а был показатель 4.6 BPS (bits-per-second, не знаю, почему bits) — и это был мировой рекорд для нейроинтерфейсов!

...а сейчас этот показатель достигает уже 8, а Noland задаётся целью догнать людей, полноценно оперирующих мышкой (у них этот показатель равен 10). Но в целом можно сказать, что управление мышкой очень точное и быстрое. А в будущем кроме этого способа ввода добавятся и другие — инженеры планируют распространить функциональность Link на управление роборуками, инвалидными колясками и другими технологиями, которые могут помочь повысить независимость людей, живущих с параличом нижних конечностей.
Сиолошная
Neuralink поделились обновлением касательно их первого пациента. С момента вживления чипа почти полностью парализованному человеку прошло 100 дней, и с ним всё в порядке. Через пару недель после операции видел разные обсуждения в ТГ и на реддите, мол, на…
Картинка 1 — как выглядит задача по кликанию по сетке. Я так понимаю квадратики бывают двух цветов, синие и оранжевые, и вероятно это кодирует кнопку мыши, которой нужно на них нажимать (левая и правая)

Картинка 2 — кол-во часов ежедневного использования нейроинтерфейса с момента операции. Оранжевое — использование в свободное время, синее — в «рабочее», во время сессий с исследователями/инженерами.
DeepMind представили AlphaFold 3. В отличии от прошлой модели, эта предсказывает не только 3Д-структуру свёрнутого белка, но и ДНК, РНК, лиганд, и, что не менее важно, того, как они взаимодействуют. Кроме того, система может моделировать химические модификации этих молекул, которые контролируют здоровое функционирование клеток, разрушение которых может привести к заболеванию.

Я в биологии ничего не понимаю, и мне сложно судить, насколько полезной была предыдущая модель, и какие новые возможности приносит эта. Будем ждать какого-нибудь грамотного разбора от экспертов, почему это big thing. Сами DeepMind считают, что инструмент пригодится в разработке биовозобновляемых материалов, более устойчивых сельскохозяйственных культур, ускорит разработку лекарств и исследования в области геномики. Нейронка как бы позволяет нам провести эксперимент без самого эксперимента, и если результаты кажутся нам обещающими — то только в этом случае начинать что-то делать.

С точки зрения архитектуры модели самым крупным изменением кажется добавление диффузии при генерации 3Д-структуры — прямо как для изображений! Процесс генерации диффузией начинается с облака атомов и в течение нескольких последовательных итераций приводит к окончательной, наиболее точной молекулярной структуре. Для интересующихся есть статья в Nature с чуть большим количеством подробностей.

Модели пока не будет в окрытом доступе — из-за потенциальных биологических рисков. DeepMind отдельно опубликовали документ на 7 страниц, который поясняет их суждения и план — было привлечено больше 50 экспертов для того, чтобы лучше понять потенциальные применения модели, в том числе и недоброжелателями. Однако для исследователей будет открыта бесплатная платформа, куда можно загрузить свои данные и на выходе получить предсказания, с визуализацией.
This media is not supported in your browser
VIEW IN TELEGRAM
Вот наглядная визуализация того, что предсказывает модель.

На гифке мы видим 8AW3, РНК-модифицирующий белок. Сам белок тут выделен сине-голубым, фиолетовым — РНК, желтые шарики — ионы, а серым обозначено реальное расположение, выявленное во время экспериментов.

Как вы понимаете, сама сцена тут очень сложная — мы пытаемся понять, как белок меняет саму РНК, как на неё влияет, какими свойствами она начинает обладать и как выглядит после взаимодействия. AI инструмент в некотором смысле позволяет нам симулировать то, что делает природа. И в отличии от реальных экспериментов, делается это гораздо быстрее, да и масштабируется без участия человека. Можно проводить сотни и тысячи виртуальных экспериментов, определяя перспективные направления исследований.

AlphaFold 2 работала только с белком — то есть на демонстрации присутствовала бы только сине-голубая часть, а остальное не существовало. И тем более не шло речи о каких-то взаимодействиях между разными молекулами.

AlphaFold 7, видимо, будет по начальному состоянию Вселенной симулировать развитие человечества 😂 и всех белковых организмов
Please open Telegram to view this post
VIEW IN TELEGRAM
По слухам, сегодня, 9-го мая, должна была состояться презентация новых продуктов OpenAI, но её было решено перенести на понедельник — прямо за день до Google I/O, где техногигант традиционно показывает новые технологии, включая AI.

Эти же слухи указывают на то, что продукт(-ы) OpenAI будут связаны с ... поиском, исторической вотчиной Google. При этом Sam Altman в недавних интервью говорил, что просто взять и сделать поиск — это не так круто, их технология гораздо обширнее, и способна на более революционные вещи.

===

В ЛЕВОМ УГЛУ РИНГАААА Sleepy Pinche Pichai, проспавший начало AI гонки и занятой доработкой woke-фильтров для генерации картинок.

В ПРАВОМ УГЛУУУУ беспощадный уничтожитель и манипулятор Sam Altman, компания которого в последние два дня активизировалась и выпустила аж три блогпоста про политику разработки и запуска новых моделей:
— Understanding the source of what we see and hear online
— Our approach to data and AI
— Introducing the Model Spec

Кто будет на коне, а кому придётся глотать пыль??
Узнаем уже совсем скоро! Не забудьте купить попкорн при поездке в магазин на выходных!
Не знаю, зачем вам эта информация, но вот два графика и подпись (из твиттера):
— [самый] печальный и позорный график нашей эпохи

Оказывается, за всё время было построено примерно 700 реакторов, сейчас активно чуть более 400. На 2019 год это позволило обеспечить 10 % от производства электро- и 2.5 % от всей потребляемой человечеством энергии [не вся энергия, производимая нами— электрическая, и не вся потребляется]

За ITER и термояд страшно... 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents

Статья, очень похожая на одну из трёх моих любимых статей 2023-го. Авторы создают виртуальную больницу, населяют её агентами, основанными на LLM, прогоняют несколько тысяч «больных» через докторов. Последние, в свою очередь, накапливают багаж знаний, опыта, и затем используют его для обработки новых случаев. Затем финальная система тестируется на общепринятых бенчмарках, и показывает результаты лучше, чем другие подходы.

Звучит умопомрачительно? (вообще — да) На самом деле с точки зрения прироста качества большого прорыва не произошло, на условном датасете MedQA система с агентами на основе GPT-4 выбивает 93.06%, в то время Medprompt (подробно разбирали тут) давал 90.28%. По сути, и тот подход, и этот — это про способы устройства некоторого хранилища, к которому модель имеет доступ, и примеры из которого подаются в промпт для того, чтобы давать контекстные подсказки модели. Просто один метод чуть более эффективен — и эффектен, блин, делается целая симуляция с больными, их диагнозами, возможными значениями показателей в анализах.

В этом как раз и ограничение работы — на полученных данных пока что нельзя взять и дообучить GPT-4, и получается, что качество ограничено метриками исходной модели, и итерироваться не получится. При этом сама симуляция проигрывается на модели 3.5 (так как это дешевле и быстрее), что влияет на качество данных — но даже с опорой на них более умная четверка выдаёт высокое качество.

Интересно, что кроме простого прогона диагностики и лечения в симуляции, авторы параллельно дают агентам-докторам возможность «начитаться» — кроме получения опыта из симулируемых случаев, в «свободное время» агенты читают миллионы страниц текста, генерируют по ним вопросы и ответы, разбирают, почему ответы именно такие (это всё — автономно, без разметки). Эти знания также попадают в буффер памяти, к которому у агентов есть доступ при решении новых задач. Как я написал, по сути это построения хранилища знаний, где данные получаются не просто методом «вот мы положили описание кейсов и диагнозы».

Но вообще концепция клёвая — через игру с самой собой модель генерит синтетические данные, которые улучшают качество. Повторить с дообучением несколько десятков раз — и может получиться что-то интересное.