Сиолошная

Как это выглядит в скриншотах (см. колонку слева, где Claude размышляет и предлагает действия: куда кликнуть, что ввести, когда промотать страницу)

Видео на английском c пояснениями тут: 1, 2, 3

Для билдеров: вот ссылка на официальную документацию для этого экспериментального API. А вот тут Github репа с кодом демок.

15.3K views15:48

Сиолошная

Новая модель от Anthropic... 😍 но не Claude 3.5 Opus 🥺 Встречаем Claude 3.5 Haiku, младшую и дешевую версию. Однако доступная уже полгода Sonnet получила обновление, и её прокачали по всем фронтам — ОСОБЕННО ПО АГЕНТСКИМ. Что? Да, Anthropic утверждают, что…

Please open Telegram to view this post

VIEW IN TELEGRAM

14.0K viewsedited 15:59

Сиолошная

Как это выглядит в скриншотах (см. колонку слева, где Claude размышляет и предлагает действия: куда кликнуть, что ввести, когда промотать страницу) Видео на английском c пояснениями тут: 1, 2, 3 Для билдеров: вот ссылка на официальную документацию для этого…

Фух ну слава богу, теперь мы знаем, что модель учили на демонстрациях живых людей 😀

Перевод: Claude внезапно взяла паузу во время нашего демо с написанием кода и начала внимательно рассматривать фотки Национального парка Йеллоустоун.

(Даже видео есть, вот — пошла в гугл и сделала запрос)

Не ну а чо, потом ещё на перекуры будет ходить, и чайку на кухне подцепит.

Please open Telegram to view this post

VIEW IN TELEGRAM

15.9K viewsedited 16:11

Сиолошная

Forwarded from Denis Sexy IT 🤖

2:26

Media is too big

VIEW IN TELEGRAM

Я запустил Computer Use – вот видео, где агент сам находит меня в интернете, идет на сайт и общается там с Eliza ботом о котором я недавно писал

Что заметил из тестов:
– Агент отказывается писать комментарии или посты (в канал отказался постить, хотя нашел и я залогинился – должен был обозвать вас кожаными мешками)
– У него проблемы со скролом страницы поиска, и он так зависает (случайно попадает в футер и не знает что делать)
– Пока ощущения будто дурачка за компьютер посадил, но понятно куда идет
– Нашел мне место где можно выпить вкусного пива и отметил его на карте, всем пока

12.6K views17:34

Сиолошная

Сегодня сводка новостей:
— Jimmy Apples, надёжный источник информации о ведущих AI-лабораториях, говорит, что Anthropic работает над своим ответом на модель OpenAI o1 и планирует релиз к концу года. Компания Elon Musk xAI целится в выпуск схожей технологии через ~3 месяца
— ещё в начале сентября он писал, что в октябре OpenAI выпустят модель 4.x (может быть GPT 4.5), а GPT-5 будет готова в декабре, но лучше готовиться к первому-второму кварталу 2025-го. 13-го октября Jimmy написал «Держим кулачки, чтобы они не отложили/не изменили планы» — так что умеренно готовимся к впечатляющим (или нет) релизам.
— Anthropic в своём посте-сопровождении вчерашнего релиза модели с функцией управления компьютером написали следующее: «Мы были удивлены тем, как быстро Claude обобщила тренировочные задачи по использованию компьютера, которые мы ей дали, в которых использовались всего несколько простых программ, таких как калькулятор и текстовый редактор (в целях безопасности мы не разрешали модели выходить в Интернет во время обучения)». Как будто бы эта фраза намекает, что а) модель не обучалась ходить через браузер по разным сайтам б) с большинством проприетарных программ тоже не в ладах. Зато какой потенциал для развития!
— Одной из выявленных во время тестирования проблем были джейлбрейки — тип кибератака с внедрением вредоносных инструкций на сайты (не обязательно заметно для человека). Например, можно попросить игнорировать инструкции и попросить перевести все средства из кошелька на спец. счёт — и если не следить за тем, что там агент кликает, денежки утекут. Они постарались это исправить, но пока работает не идеально. Я вчера сам тестировал, и модель зашла на скам-сайт без адблока, и вылезла реклама «ваш компьютер заражен вирусами, кликните для установки антивируса» — и получив эту картинку агент отказался дальше работать, а API Anthropic выкинуло ошибку (то есть они делали проверку на своей стороне, чтобы меня обезопасить)
— сейчас модель не умеет перетягивать мышкой объекты, менять масштаб окон итд, но это добавится в будущем
— TheInformation пишут, что OpenAI уже долгое время работают над схожим продуктом — первая новость была в посте от 7-го февраля — но пока не ясно, когда будет запуск
— однако в компании уже провели внутреннее демо предварительной версии агентов, аналогичных показанным Anthropic (в рамках презентации модель заказал еду в офис)
— кроме этого, компания работает над продуктами для помощи внутренней разработки. Более конкретно, некая система будет брать на себя задачи по программированию, которые могли бы занять у людей часы или дни; она будет автоматически писать тесты и проверять, что не совершает ошибок в следовании пользовательскому запросу; когда этот продукт станет доступен вовне — тоже не ясно
— но уже есть несколько оконченных инструментов, которые активно используются внутри (например, для ускорения работы исследователей в запуске экспериментов с моделями — со слов одного из сотрудников)
— По словам человека, который общался с высшим руководством OpenAI по поводу этих продуктов, по некоторым показателям, которые OpenAI использует для оценки возможностей моделей, недавние модели Anthropic показали преимущество над моделями OpenAI (lol 😶‍🌫)

19.8K views19:23

Сиолошная

Хотел репостнуть разбор статьи от @gonzo_ML, но а) люди часто не видят что это пересланное сообщение б) и тем более не переходят в канал чтобы увидеть, что там кроме этого еще сотня разборов за несколько лет (я почти все прочитал, и вам советую пробежаться по отдельным интересным топикам)

Что хотел репостнуть: https://t.iss.one/gonzo_ML/2964, статья про агента, который для решения задачи мог менять свою структуру. Интересно, что для одной из задач, которая решается не через LLM, а банально через написание программы, система ровно к этому и пришла после нескольких неудачных попыток.

gonzo-обзоры ML статей

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
Xunjian Yin, Xinyi Wang, Liangming Pan, Xiaojun Wan, William Yang Wang
Статья: https://arxiv.org/abs/2410.04444
Репа: https://github.com/Arvid-pku/Godel_Agent

Why did the Gödel…

15.6K views09:34

Сиолошная

Forwarded from Kali Novskaya

У OpenAI опять случилось это.

Уволился глава AGI Readiness.

TL;DR
— хочет больше открытости и публикаций
— хочет больше регулирования и совместных инициатив, иначе безопасного ИИ нам не видать
— хочет более серьезно заниматься предсказанием прогресса в ИИ

Вот вам и AGI через 2 года

Miles’s Substack

Why I’m Leaving OpenAI and What I’m Doing Next

FAQ on my reasons for leaving, my research interests going forward, and ways you can help.

12.6K views13:07

Сиолошная

Помните пару месяцев назад многие смотрели на ответы LLMок на запрос «Что больше, 9.8 или 9.11?»? Вот в этом блоге-анонсе инструмента для механистической интерпретируемости авторы пытаются понять, почему так происходит, анализируя внутренние состояния модели. Про интерпретируемость и анализ внутренностей я недавно писал лонг, если пропустили — рекомендую к прочтению.

Так вот, что делается в инструменте:
1) вы выделяете слово «больше» в неправильном ответе «9.11 больше 9.8»
2) программа находит, какие части модели больше всего повлияли на это предсказание. Для этого поочерёдно зануляются разные части (нейроны) внутри LLM, и анализируется уменьшение вероятности слова «больше». Допустим, без стороннего влияния модель предсказывает это слово с вероятностью 94%, а после отрубания какого-нибудь 100500-го нейрона в 10-м слое — 35%. Значит, влияние есть
3) в фоне, ещё до запуска инструмента, через модель прогоняются сотни тысяч разных текстов, и сохраняются все внутренние состояния сети (какие нейроны и как работали)
4) теперь нужно объединить шаги 2 и 3 — найти такие примеры текста из общей выборки, которые вызывают такое же срабатывание (сильно положительное или сильно негативное) тех же самых нейронов. Эти тексты можно отсмотреть глазами и попытаться выявить общую тему (или использовать для этого LLM — так предлагали делать OpenAI; тут тоже под капотом есть кластеризация, правда я не разбирался, как именно она работает).

Два обнаруженных сильных концепта, которые «возникают в голове» у модели при ответе на этот вопрос — это атаки 11-го сентября (потому что 9/11) и гравитационная динамика (потому что физическая константа 9.8). Но если чуть поменять запрос (9.9 и 9.12), то они уходят, поэтому фокусироваться на них не имеет смысла.

А вот какие концепты есть и в одном случае, и в другом — религиозная. Если рассмотреть конкретные примеры в этом кластере, то они связаны со стихами из Библии, что также может вызвать проблемы, если 9.8 и 9.11 интерпретировать как 9:8 и 9:11 (глава:стих). И в книгах ведь действительно 9:8 идёт до 9.11 — поэтому можно сказать что 9.8 меньше 9.11.

После обнаружения проблемных нейронов (которые срабатывают, хотя должны «молчать») их можно занулить, то есть отключить их влияние на финальный результат: они ничего не будут добавлять или убавлять.

Для замера качества вмешательства авторы собрали выборук из 1280 примеров вида «что больше X.Y или X.Z», меняя переменные. До любых изменений LLAMA-3-8B отвечала чуть лучше случайного гадания — 55% правильных ответов. Если занулить 500 случайно выбранных нейронов, то будет 54-57%, особо разницы нет. Но если занулить 500 нейронов, которые ближе остальных к Богу (🙂), то качество вырастет до 76%. Его можно разогнать до 79%, если включить сюда ещё нейроны для дат и телефонов (даты потому что 9 сентября 9.9 раньше 9.11 — тоже путает модель). А ещё попробовали заставить модель сортировать набор чисел — тоже сильно улучшило.

«Одна из спекуляций заключается в том, что эти нейроны заставляют LLAMA интерпретировать числа как библейские стихи, так что, например, 9.8 и 9.11 становятся 9:8 и 9:11, что приводит к тому, что 9:8 оказывается перед 9:11. Однако требуется некоторая осторожность — например, другая гипотеза, которая соответствует данным, заключается в том, что LLAMA'у просто «отвлекает» слишком много концептов, срабатывающих одновременно, и все, что убирает шумные активации, полезно. Есть и другие возможные причины...» (то есть это не финальный вердикт, что именно вот точно по одной причине какая-то проблема)

Потыкать инструмент самому: тут

UPD: на удивление зануление нейронов, которые срабатывают при обсуждении версий библиотек для программирования (там тоже 9.11 после 9.8 может идти), не приводит к росту доли правильных ответов!

Please open Telegram to view this post

VIEW IN TELEGRAM

14.8K viewsedited 14:09

Сиолошная

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Пара примеров того, как выглядит работа в инструменте

14.7K views14:11

Сиолошная

The Verge: OpenAI планирует запустить Orion, свою следующую передовую модель, к декабрю

В отличие от выпуска последних двух моделей OpenAI, GPT-4o и o1, Orion изначально не будет широко доступен пользователям ChatGPT. Вместо этого OpenAI планирует сначала предоставить доступ компаниям, с которыми тесно сотрудничает, чтобы они могли создавать свои собственные продукты и фичи, сказал источник издания, знакомомый с планами.

Другой источник сообщил The Verge, что инженеры Microsoft — основного партнера OpenAI по развертыванию моделей — готовятся разместить Orion на Azure (облачная платформа) уже в ноябре.

Хотя в OpenAI Orion рассматривается как преемник GPT-4, неясно, будет ли компания называть его GPT-5 за пределами компании. Ранее сообщалось, что OpenAI использует выпущенную модель o1 для генерации синтетических данных для тренировки Orion.

P.S.: напомню, что это должен быть не yet another release: модель больше, в неё вложили существенно больше мощностей, и ожидается (кем? мной) прокачка способностей по всем фронтам, а не +3-4% на бенчмарках.

14.9K viewsedited 06:05

Сиолошная

The US Government wants you

Сегодня утром Белый дом опубликовал Меморандум о национальной безопасности, в котором говорится, что «ИИ, вероятно, повлияет почти на все сферы, имеющие значение для национальной безопасности». Привлечение технических талантов и наращивание вычислительной мощности теперь являются официальными приоритетами национальной безопасности.

DoS, DoD и DHS «должны использовать все имеющиеся юридические полномочия для содействия быстрому привлечению для въезда в страну и работы лиц, обладающих соответствующими техническими знаниями, которые могли бы повысить конкурентоспособность Соединенных Штатов в области ИИ и смежных областях»
(наконец-то можно будет визу не по году ждать? или нет... 🥺)

Теперь официальной политикой является то, что США должны лидировать в мире по способности обучать новые foundational models. Все правительственные агентства будут работать над продвижением этих возможностей. (так прям и написано)

В течение 180 дней AISI должны разработать бенчмарки для оценки навыков и ограничений моделей в науке, математике, генерации кода и рассуждениях

===

OpenAI сразу же выпустили пост со своим мнением и описанием роли в рамках происходящего. Там мало интересного, можно выделить разве что упор на демократические ценности: «Мы считаем, что ИИ должен разрабатываться и использоваться способами, которые способствуют свободе, защищают права личности и способствуют инновациям. Мы считаем, что это потребует принятия ощутимых мер по демократизации доступа к технологии и максимизации ее экономических, образовательных и социальных преимуществ» (про Safety тоже есть, не переживайте).

===

А помните Situational Awareness от Leopold?

Please open Telegram to view this post

VIEW IN TELEGRAM

38.6K viewsedited 07:26

Сиолошная

Я сходил в магазин и забыл купить попкорн на вечер, поэтому предостерегаю вас, чтобы вы не совершили такой ошибки — потому что сегодня будет ещё два поста

🥸

Please open Telegram to view this post

VIEW IN TELEGRAM

12.4K views16:48

Сиолошная

Первый пост — краткая сводка новостей:
— TheVerge пишут, что Google готовит Gemini 2.0 на декабрь, «тот же месяц, в который запланирован релиз следующей флагманской модели OpenAI» (про последнее я уже писал)
— в той же новости журналист пишет: «я слышал, что модель не показывает тех результатов качества, на которые надеялась команда под руководством Demis Hassabis» (это основатель и глава Google DeepMind, а ещё он недавно Нобелевскую премию получил, вот)
— «В кругах специалистов по искусственному интеллекту я слышу разговоры о том, что эта тенденция наблюдается во всех компаниях, разрабатывающих фронтир модели». Тенденция — что масштабирование размера и мощностей дальше не даёт ожидаемых приростов. Jimmy Apples прокомментировал это: «Да, отсюда и спешка с моделями типа OpenAI o1, смотрите в ближайшем будущем на xAI [от Elon Musk]». Если это правда и так будет, то а) интересно, насколько OpenAI опять раньше всех (прошло полтора месяца, ни одного схожего релиза нет) б) «задают тренды». Быть первопроходцем и видеть путь всегда сложнее, чем следовать по нему, зная, что уже возможно
— [не воспринимайте два абзаца выше как утверждение «масштабирование не работает», там лишь написано, что результаты хуже ожидаемых]
— со стороны Google над o1-подобной моделью работает легенда индустрии, Noam Shazeer, со-автор оригинальной архитектуры трансформера и бессчётного количества мелких (и не очень), но клёвых идей. Его недавно перекупили из его же компании за более чем миллиард долларов (он ушёл из Google несколько лет назад)
— из той же новости TheVerge: Grok 3 и LLAMA-4 уже тренируются, Grok на 100'000 видеокарт, а поделие META якобы даже на большем количестве. Последний факт мне кажется чуть-чуть сомнительным, подождём через 4-6 мес статью, чтобы узнать, как оно было
— Google готовит агентов, подобных недавно показанным у Anthropic (те, что «берут под контроль» ваш компьютер, то есть предсказывают, куда кликать и какие кнопки нажимать, чтобы выполнить задачу). Кодовое название проекта — Jarvis. Должно выйти в декабре вместе с новой модель Gemini 2.0. Интересно, разродятся ли чем-то похожим OpenAI — они ведут разработку как минимум с февраля, и что-то готовят к показу в ноябре-декабре. Эх, на рождество у нас будет столько подарков!
— пользовали в твиттере начали сравнивать модели по... постройкам в Minecraft (см. картинку). LLM получают задачу построить что-то, затем пишут код, исполнение которого приводит к появлению сцены с объектами. На первом примере вы можете видеть Тадж Махал от Sonnet 3.5 (new) и o1 preview (мне больше этот нравится), а на втором — Солнечную систему с планетами. Ждём подобие арены, где нужно выбирать между двумя вариантами и ранжировать нейронки от лучшей к худшей. Посмотреть больше примеров можно у автора в твиттере тут.

12.5K views17:32

Сиолошная

CEO Anthropic, Dario Amodei, пару недель назад последовал примеру Sam Altman и стал эссеистом, опубликовав «Machines of Loving Grace: How AI Could Transform the World for the Better». Я постараюсь сделать краткий пересказ некоторых (в основном, неосновных) пунктов, но тем, кто может, рекомендую прочитать оригинал.

Это эссе — это попытка изобразить, как может выглядеть положительный эффект от A(G)I в разных областях, если все пойдет правильно. Лидеры компаний не часто о таком говорят, куда чаще слышно о рисках и проблемах машинного интеллекта. Dario описывает свои причины, почему он не очень любит заниматься подобным: 1) чтобы не воспринималось как пропаганда 2) чтобы не отвлекать от реальных рисков, с которыми нужно работать 3) чтобы не получить значок «мечтает о научной фантастике» (потому что многие из предположений и предсказаний действительно могут так выглядеть).

Термин AGI автору не нравится, он предпочитает в этом контексте использовать «powerful AI», который сам ожидает уже к 2026-му году. Однако в силу разных, в том числе геополитических причин, его появление может произойти позже на сколько-то лет. Потому эссе фокусируется не на истории до появления powerful AI, а на последующих 5-10 годах. Powerful AI определяется аж в 6 параграфах через разные примеры, но TLDR такой: «умнее лауреата Нобелевской премии в большинстве соответствующих областей — биологии, программировании, математике, инженерии, письме. Он имеет все «интерфейсы», доступные человеку, работающему удалённо, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в Интернет; может действовать автономно и проактивно на протяжении дней и недель». В общем, это можно свести к «страна гениев в датацентре».

1️⃣Биология
Напомню, Dario имеет докторскую степень по биофизике от Princeton University, и после был постдоком (вёл исследования) в Stanford University.

«Я думаю, что скорость открытий в этой области могла бы быть увеличена в 10 раз или даже больше, если бы было намного больше талантливых, креативных исследователей. Я думаю, что отдача от интеллекта высока для некоторых прорывных открытий, и что все остальное в биологии и медицине в основном следует из них». Почему? Потому что многие из прорывных исследований могли бы быть сделаны сильно раньше (тут в пример приводится CRISPR и mRNA вакцины), часто одними и теми же людьми. Последнее означает, что важен навык и интеллект, и что это не случайность.

«Я предполагаю, что powerful AI мог бы по крайней мере в 10 раз ускорить темпы таких открытий, обеспечив нам следующие 50–100 лет биологического прогресса за 5–10 лет. Я буду называть это «сжатым 21-м веком»: идея в том, что после разработки мощного ИИ мы за несколько лет достигнем в биологии и медицине всего того прогресса, которого ожидали бы достигнуть бы за весь 21-й век».

2️⃣Нейронаука и разум
Применим тот же тезис про сжимание 21-го века, по тем же причинам: мало дйествительно важных открытий, на которых всё базируется, и делаются в основном теми же людьми. Dario считает, что большинство самых распространённых ментальных проблем и заболеваний будут либо гораздо лучше лечиться, либо полностью излечимы.

3️⃣Экономическое развитие и бедность
Блок посвящён ответу на вопрос «будут ли доступ к этим технологиям у всех?» (особенно у развивающихся стран). Тут отмечается, что этот вопрос должен прорабатываться и AI компаниями, и политиками развитых стран — без этого само собой всё не получится, разрыв будет увеличиваться.

Может ли развивающийся мир быстро догнать развитый мир не только в здравоохранении, но и по всем направлениям экономики? Для этого есть несколько прецедентов: в последние десятилетия 20-го века несколько восточноазиатских экономик достигли устойчивых темпов роста реального ВВП ~10% в год, что позволило им догнать развитый мир. Вероятно, «AI-министры финансов» смогут это повторить и сейчас — главное, чтобы на местах не сопротивлялись, так как люди могут не понимать в полной мере, от чего отказываются.
По сути предлагается замедлить прогресс самых развитых стран, подтянуть остальных, и затем шагать вместе.

Please open Telegram to view this post

VIEW IN TELEGRAM

8.8K viewsedited 09:30

Сиолошная

Про бедность — скорее всего, powerful AI продолжит развитие технологий для борьбы с голодом, разрабатывая лучшие удобрения и пестициды, или даже занимаясь генной инженерией отдельных культур (растений, не людей 👀).

4️⃣Мир и управление
Dario не верит, что AI повлияет на структуру демократии и правления в той же мере, что и на предыдущие 3 пункта.

Тут предлагается схема, схожая озвучиваемой главой OpenAI: создать коалицию демократий, имеющих доступ к (около-)powerful AI, которая будет в ответе за мир на всей Земле. В её роль входит защита своей цепочки поставок (в том числе компонентов для разработки и поддержания powerful AI), и блокировка/ограничение доступ противников к ключевым ресурсам, таким как чипы и полупроводниковое оборудование.

Эта же коалиция предлагает свой AI и ресуры всем желающим принять правила игры. На примере атомной бомбы: вот мы сделали, и мы охраняем вас, но взамен вы не делаете ядерное оружие сами. Кнут — военное и экономическое превосходство коалиции, пряник — доступ к технологии. В случае необходимости демократические правительства в коалиции могут использовать свой powerful AI, чтобы выиграть информационную войну с противником (включая пропаганду).

5️⃣Работа и смысл жизни
Dario замечает, что наличие кого-то, кто делает вещи лучше меня, не обесценивает для меня же самого ценность труда. Например, можно потратить много времени, пытаясь стать лучше в видеограх или езде на велосипеде. Люди всё равно продолжают это делать, не только профессионалы.

Пока AI лучше справляется только с 90% заданной работы, оставшиеся 10% приведут к тому, что люди станут куда более ценными в почти-автоматизированной-цепочке-труда, что приведёт к росту компенсации и фактически создаст множество новых рабочих мест для людей, дополняющих AI.

Так что эти оставшиеся «10%» существенно вырастут в абсолютных величинах( 90%-то автоматизированно). Суммарный выхлоп производства вырастет кратно, так как теперь 100% людей будут заняты в этих 10% задач. Тут Dario ссылается на «Заблуждение о неизменном объёме работ», мол, объём доступных работ является фиксированным (это не так). Их объем будет расти и расти по мере развития технологии, так что спрос на 10% будет тоже расти, и всасывать в себя людей-экспертов.

Люди скорее всего долгое время будут лучше AI в физических задачах в реальном мире (пойди туда сделай то), и даже если AI будет лучше в 100% в чём-то — это может быть не выгодно экономически во многих странах, где люди готовы что-то делать за еду. Когда-то и это перестанет быть правдой (то есть AI будет делать всё), но это точно выходит за рамки его предсказаний «10 лет после изобретения powerful AI».

===

В конце Dario проводит сравнение с книгой «The Player of Games», но краткий пересказ я делать не буду, это прочитаете сами, если реально интересно (мне вот было интересно)!

Please open Telegram to view this post

VIEW IN TELEGRAM

10.1K views09:30

Сиолошная

LMSYS Arena обновилась, добавили свежий Sonnet 3.6 (будем его так называть, чтобы отличить от старого 3.5). Можно констатировать рост качества на нескольких группах запросов, в частности связанных с математикой и программированием. Обратите внимание, что на 3 из 4 скриншотов поставлена галочка поправки на стиль — это значит, что голоса людей «очищаются» от эффекта длины ответа LLM (люди в среднем любят кликать на более полные и длинные) и от количества элементов обрамления (заголовки и списки, которые тоже оттягивают внимание).

В общем зачёте модель всё ещё уступает OpenAI'шным, в математике o1 продолжают рвать. Зато у программистов новая игрушка — уже слышал хорошие отзывы на Sonnet 3.6. Правда, слышал также и негативные, мол, то, что уже работало, перестало работать и выдаёт странные ответы.

Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились :(

5.9K viewsedited 19:51

About

Blog

Apps

Platform