Google предложили систему памяти, благодаря которой ИИ может учиться на своих ошибках в реальном времени
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно, запомнит это и в следующий раз попробует сделать по-другому. А вот LLM так не умеют. Да, у нас уже есть глобальная память в ChatGPT, но с точки зрения паттернов мышлеия каждый новый запрос модели все еще воспринимают как первый.
Подход Google называется ReasoningBank. Это как бы блок памяти, который дистиллирует стратегические знания из прошлых действий.
То есть: случился какой-то диалог с пользователем –> мы вызываем специального агента-судью, который оценивает, насколько хорошо была решена задача –> логируем этот опыт с пометками, что получилось лучше всего и хуже всего и почему. На выходе получаем структурированное "воспоминание" с полями Title, Description и Content. Например, может быть так:
При решении новой задачи агент вернется к этой памяти и добавит релевантные заметки в промпт. Получается вот такой умный контекст-менеджмент.
И еще интересный момент. На основе такой памяти исследователи вывели новый тип масштабирования вычислений. То есть у нас вот есть скейлинг на претрейне, ризонинг-скейлинг, а они добавили еще Memory-aware Test-Time Scaling (MaTTS).
Суть в том, что агент генерирует множество решений одной задачи, и (тут на сцену выходит ReasoningBank) из каждого извлекает полезные паттерны, которые тут же использует для пересмотра своего окончательного ответа. Чем больше компьюта – тем больше обогощается ReasoningBank, и тем лучше становятся ответы. Модель учится рассуждать из собственного многообразия ошибок.
Вот такая работа с потенциалом. В целом, если подобное заведется, то можно было бы еще крутить и крутить. Например, добавить механизмы забывания, приоритизации или слияния воспоминаний.
arxiv.org/pdf/2509.25140v1
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно, запомнит это и в следующий раз попробует сделать по-другому. А вот LLM так не умеют. Да, у нас уже есть глобальная память в ChatGPT, но с точки зрения паттернов мышлеия каждый новый запрос модели все еще воспринимают как первый.
Подход Google называется ReasoningBank. Это как бы блок памяти, который дистиллирует стратегические знания из прошлых действий.
То есть: случился какой-то диалог с пользователем –> мы вызываем специального агента-судью, который оценивает, насколько хорошо была решена задача –> логируем этот опыт с пометками, что получилось лучше всего и хуже всего и почему. На выходе получаем структурированное "воспоминание" с полями Title, Description и Content. Например, может быть так:
Title: Avoid repeating failed actions
Description: Агент застрял в цикле – несколько раз кликал на одну и ту же кнопку, которая не работала.
Content: Если одно и то же действие не приносит результата, нужно изменить стратегию: например, обновить страницу или вернуться на предыдущий шаг.
При решении новой задачи агент вернется к этой памяти и добавит релевантные заметки в промпт. Получается вот такой умный контекст-менеджмент.
И еще интересный момент. На основе такой памяти исследователи вывели новый тип масштабирования вычислений. То есть у нас вот есть скейлинг на претрейне, ризонинг-скейлинг, а они добавили еще Memory-aware Test-Time Scaling (MaTTS).
Суть в том, что агент генерирует множество решений одной задачи, и (тут на сцену выходит ReasoningBank) из каждого извлекает полезные паттерны, которые тут же использует для пересмотра своего окончательного ответа. Чем больше компьюта – тем больше обогощается ReasoningBank, и тем лучше становятся ответы. Модель учится рассуждать из собственного многообразия ошибок.
Вот такая работа с потенциалом. В целом, если подобное заведется, то можно было бы еще крутить и крутить. Например, добавить механизмы забывания, приоритизации или слияния воспоминаний.
arxiv.org/pdf/2509.25140v1
❤🔥124🔥47👍34❤28😁1
О, новый релиз от Андрея Карпаты
Сразу ссылка: github.com/karpathy/nanochat
nanochat – это что-то типа продолжения легендарного nanoGPT. Но если nanoGPT – это, по сути, только предобучение, то здесь у нас полностью готовый конвейер для обучения и инференса целого мини-клона ChatGPT.
В лучших традициях кода Карпаты – совсем немного строк (всего 8к) и минимальное количество зависимостей. Вы просто открываете проект на любом облачном GPU-сервере, запускаете один скрипт, и уже через 4 часа можете общаться с LLM-кой в собственном ChatGPT.
В пересчете на аренду GPU это будет стоить примерно 100 долларов. Если готовы потратить больше, то можно масштабировать и получать лучшие результаты.
Технические детали о том, что просходит внутри проекта, можно почитать здесь.
Огонь же?
Это один из самых безумных репозиториев, которые я когда-либо писал
Сразу ссылка: github.com/karpathy/nanochat
nanochat – это что-то типа продолжения легендарного nanoGPT. Но если nanoGPT – это, по сути, только предобучение, то здесь у нас полностью готовый конвейер для обучения и инференса целого мини-клона ChatGPT.
В лучших традициях кода Карпаты – совсем немного строк (всего 8к) и минимальное количество зависимостей. Вы просто открываете проект на любом облачном GPU-сервере, запускаете один скрипт, и уже через 4 часа можете общаться с LLM-кой в собственном ChatGPT.
В пересчете на аренду GPU это будет стоить примерно 100 долларов. Если готовы потратить больше, то можно масштабировать и получать лучшие результаты.
Моя цель – собрать весь «сильный базовый» стек в один связный, минималистичный, читаемый и максимально форкаемый репозиторий. nanochat станет итоговым проектом LLM101n <мы об этом курсе писали тут>. Думаю, у него также есть потенциал стать исследовательским инструментом или бенчмарком, подобным ранее существовавшему nanoGPT.
Технические детали о том, что просходит внутри проекта, можно почитать здесь.
Огонь же?
2❤226🔥82❤🔥63🤯25👍22🗿4
Data Secrets
У OpenAI появятся собственные чипы. Первые поставки ожидаются уже в 2026. Чипы под названием XPU разрабатываются совместно с Broadcom (они же помогали Google с TPU). Железо будет предназначено только для внутреннего использования и только для инференса.…
Теперь официально: OpenAI будут разрабатывать кастомные чипы совместно с Broadcom
Вчера вечером они сообщили о том, что подписали сделку. Всего планируют задеплоить мощностей на 10 гигаватт. Этого бы хватило, чтобы обеспечить электричеством примерно 8 миллионов домов.
Первые запуски запланированы уже на вторую половину 2026 года (а это всего через год). Полностью развернут к 2029.
Ускорители будут предназначены, судя по всему, только для инференса. Это дает стартапу возможность существенно оптимизировать их именно под свою инфраструктуру. И тем самым снизить не только косты, но и зависимость от Nvidia.
Что-то интересное происходит
Вчера вечером они сообщили о том, что подписали сделку. Всего планируют задеплоить мощностей на 10 гигаватт. Этого бы хватило, чтобы обеспечить электричеством примерно 8 миллионов домов.
Первые запуски запланированы уже на вторую половину 2026 года (а это всего через год). Полностью развернут к 2029.
Ускорители будут предназначены, судя по всему, только для инференса. Это дает стартапу возможность существенно оптимизировать их именно под свою инфраструктуру. И тем самым снизить не только косты, но и зависимость от Nvidia.
Что-то интересное происходит
🔥73👍24❤16⚡3😁2🗿2👌1
Завтра наконец-то поступит в продажу DGX Spark от Nvidia. Первые экземпляры достались Маску.
Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.
В основе архитектура NVIDIA Grace Blackwell. Начинка: 128Gb оперативки, 20 ядер CPU, ARM процессор. Пропускная способность в районе 273 ГБ/с. И все это весит всего 1.2кг. А стоит – 4000 долларов🚨
А еще в честь долгожданного начала продаж (а с момента анонса DGX Spark до сегодняшнего дня прошло чуть меньше года) Дженсен Хуанг сам лично подарил один из первых экземпляров суперкомпьютера Илону Маску.
Подпись: "From a single Spark, a world of Intelligence": то есть "Из одной искры в мир интеллекта".
(Где-то ревниво вздыхает один Альтман)
Больше технических характеристик DGX Spark ищите тут
Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.
В основе архитектура NVIDIA Grace Blackwell. Начинка: 128Gb оперативки, 20 ядер CPU, ARM процессор. Пропускная способность в районе 273 ГБ/с. И все это весит всего 1.2кг. А стоит – 4000 долларов
А еще в честь долгожданного начала продаж (а с момента анонса DGX Spark до сегодняшнего дня прошло чуть меньше года) Дженсен Хуанг сам лично подарил один из первых экземпляров суперкомпьютера Илону Маску.
Подпись: "From a single Spark, a world of Intelligence": то есть "Из одной искры в мир интеллекта".
(Где-то ревниво вздыхает один Альтман)
Больше технических характеристик DGX Spark ищите тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106❤40🔥24🤯4 4😁3
Data Secrets
Завтра наконец-то поступит в продажу DGX Spark от Nvidia. Первые экземпляры достались Маску. Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.…
Тогда VS сейчас
1 фотография: Дженсен Хуанг привез первую видеокарту в OpenAI. Надпись на ней гласит: «Илону и команде OpenAI. Во имя будущего вычислений и человечества, дарю вам первую в мире DGX-1». 2016 год.
2 фотография: Дженсен Хуанг привез Маску DGX Spark в Space X. 2025 год.
Какая-то ностальгия
1 фотография: Дженсен Хуанг привез первую видеокарту в OpenAI. Надпись на ней гласит: «Илону и команде OpenAI. Во имя будущего вычислений и человечества, дарю вам первую в мире DGX-1». 2016 год.
2 фотография: Дженсен Хуанг привез Маску DGX Spark в Space X. 2025 год.
Какая-то ностальгия
3🔥223👾27👍20❤13😁2 2
Пособие от Ильи Суцкевера: как одним твитом довести до ручки половину Интернета
В общем, утром Суцкевер вдруг взял и запостил одну единственную фразу:
Твитерские усмотрели в этом намек на ИИ, и у всех буквально сорвало крышу. От «AGI достигнут» до «они открыли ASI и вылечили рак» – чего только люди не писали (и продолжают писать).
А Илья вдруг взял и твит удалил. И сразу после выложил новую версию:
Короче. Оказалось, что он не имел в виду ничего, что было бы хоть немного связно с ИИ (а твит заменил, видимо, потому что сам сильно «удивился» реакции общественности). Речь шла об освобождении заложников в Израиле. Желтая лента – это символ символ надежды в ожидании возвращения заложников домой.
Вот такая история. На данный момент это все, что вам нужно знать о хайпе в Интернете
В общем, утром Суцкевер вдруг взял и запостил одну единственную фразу:
«truly the greatest day ever»
Твитерские усмотрели в этом намек на ИИ, и у всех буквально сорвало крышу. От «AGI достигнут» до «они открыли ASI и вылечили рак» – чего только люди не писали (и продолжают писать).
А Илья вдруг взял и твит удалил. И сразу после выложил новую версию:
«truly the greatest day ever🎗️»
Короче. Оказалось, что он не имел в виду ничего, что было бы хоть немного связно с ИИ (а твит заменил, видимо, потому что сам сильно «удивился» реакции общественности). Речь шла об освобождении заложников в Израиле. Желтая лента – это символ символ надежды в ожидании возвращения заложников домой.
Вот такая история. На данный момент это все, что вам нужно знать о хайпе в Интернете
❤243😁198👍27🗿10☃8🤯6🔥4👀2
Сэм Альтман пообещал, что в ChatGPT станет меньше цензуры
После выхода GPT-5 пользователи начали массово жаловаться на то, что модель перестала быть человечной, что теперь с ней нельзя поговорить как с другом, что они потеряли в ее лице психолога и тд.
OpenAI оправдывали это тем, что такой ценой старались сделать модель однозначно безопасной для людей с психологическими проблемами (вспоминаем историю о подростке, который покончил с собой после общения с ChatGPT).
Но теперь, кажется, свобод снова должно стать больше. Альтман написал, что они «разработали новые инструменты» для обработки отдельных случаев, и теперь могут безопасно ослабить ограничения для большинства юзеров. В частности:
1. В ближайшее время выйдет дополнительная версия ChatGPT, специально для фанатов человечности ответов и дружеского общения, как с GPT-4o.
2. В декабре, как только более широко введут возрастной ценз, для совершеннолетней аудитории разрешат эротику (что бы это ни значило).
У вайфу Илона Маска появится соперник🤨
После выхода GPT-5 пользователи начали массово жаловаться на то, что модель перестала быть человечной, что теперь с ней нельзя поговорить как с другом, что они потеряли в ее лице психолога и тд.
OpenAI оправдывали это тем, что такой ценой старались сделать модель однозначно безопасной для людей с психологическими проблемами (вспоминаем историю о подростке, который покончил с собой после общения с ChatGPT).
Но теперь, кажется, свобод снова должно стать больше. Альтман написал, что они «разработали новые инструменты» для обработки отдельных случаев, и теперь могут безопасно ослабить ограничения для большинства юзеров. В частности:
1. В ближайшее время выйдет дополнительная версия ChatGPT, специально для фанатов человечности ответов и дружеского общения, как с GPT-4o.
2. В декабре, как только более широко введут возрастной ценз, для совершеннолетней аудитории разрешат эротику (что бы это ни значило).
У вайфу Илона Маска появится соперник
Please open Telegram to view this post
VIEW IN TELEGRAM
😁89☃40👀20❤16👍4 3🍓2🤔1
VK запускает соревнование по рекомендашкам: участникам предстоит решать проблему холодного старта
Только что открылась регистрация на VK RecSys Challenge – соревнование по разработке алгоритмов рекомендаций.
Кейс в этом году выбрали очень занятный. Вместо того, что анализировать поведение пользователя и подбирать под него контент, нужно сделать обратное: построить модель, которая будет предсказывать, кому окажется интересен новый клип, даже если он еще ни разу не показывался. Холодный старт в естественной среде обитания.
Работать предстоит с огромным датасетом VK-LSVD (40 миллиардов пользовательских взаимодействий с 20 миллионами коротких видео). Для каждого нового клипа надо подобрать 100 пользователей, которым он, скорее всего, зайдет. При этом каждый пользователь может быть использован не более 100 раз, так что просто воткнуть везде топ-100 самых активных не выйдет.
Если вы студент – это прямо отличный хакатон для получения опыта решения реальной продуктовой задачки. Опытным ML-щикам тоже рекомендуем. Призовой фонд – 2 500 000 рублей😉
Участвовать можно командой до 4 человек, а подать заявку – до 15 декабря.
Не пропускайте, полезная вещь.
Только что открылась регистрация на VK RecSys Challenge – соревнование по разработке алгоритмов рекомендаций.
Кейс в этом году выбрали очень занятный. Вместо того, что анализировать поведение пользователя и подбирать под него контент, нужно сделать обратное: построить модель, которая будет предсказывать, кому окажется интересен новый клип, даже если он еще ни разу не показывался. Холодный старт в естественной среде обитания.
Работать предстоит с огромным датасетом VK-LSVD (40 миллиардов пользовательских взаимодействий с 20 миллионами коротких видео). Для каждого нового клипа надо подобрать 100 пользователей, которым он, скорее всего, зайдет. При этом каждый пользователь может быть использован не более 100 раз, так что просто воткнуть везде топ-100 самых активных не выйдет.
Если вы студент – это прямо отличный хакатон для получения опыта решения реальной продуктовой задачки. Опытным ML-щикам тоже рекомендуем. Призовой фонд – 2 500 000 рублей
Участвовать можно командой до 4 человек, а подать заявку – до 15 декабря.
Не пропускайте, полезная вещь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿46😁28❤17🤨7 3👍1
Data Secrets
Завтра наконец-то поступит в продажу DGX Spark от Nvidia. Первые экземпляры достались Маску. Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.…
Две идеи, что подарить другу или коллеге:
1. Стильная подставка под кружку
2. Функциональная открывашка для пива
Не благодарите.
1. Стильная подставка под кружку
2. Функциональная открывашка для пива
Не благодарите.
😁274🔥28 16😎9❤5🤨4👍3
Новая неделя – новые модели от Qwen
На этот раз у нас Qwen3 VL в размерах 4B и 8B. Две просто отличные модельки для локального запуска и дообучения.
Каждая идет в вариантах Instruct и Thinking. Несмотря на размер, по качеству малышки даже кое-где обгоняют Gemini 2.5 Flash Lite и GPT-5 Nano.
По бенчмаркам видно, что модели почти дотянули до уровня Qwen2.5-VL-72B. А ведь эту модель выпустили всего пол года назад, и она считалась флагманом Qwen.
Кроме того, оптимизировали потребление VRAM и выпустили версии FP8.
Hugging Face
Cookbook
На этот раз у нас Qwen3 VL в размерах 4B и 8B. Две просто отличные модельки для локального запуска и дообучения.
Каждая идет в вариантах Instruct и Thinking. Несмотря на размер, по качеству малышки даже кое-где обгоняют Gemini 2.5 Flash Lite и GPT-5 Nano.
По бенчмаркам видно, что модели почти дотянули до уровня Qwen2.5-VL-72B. А ведь эту модель выпустили всего пол года назад, и она считалась флагманом Qwen.
Кроме того, оптимизировали потребление VRAM и выпустили версии FP8.
Hugging Face
Cookbook
1❤85🔥40👍17😁3
Что нового и интересного с точки зрения ИИ:
1. В чипе 10 ядер GPU. Прирост в производительности примерно 30% относительно М4.
2. В каждый блок теперь встроен Neural Accelerator. Прирост в скорости для локальных ИИ-задач примерно в 3.5 раза.
Сюда относятся всякие обработки фотографий, генерация видео, рендеринг, запуски моделек и тд. Примерные разбивки для разных задач (диффузия, CV, LM) смотрите тут.
Кстати про модельки: по ощущениям легко должно тянуть до 7-8В.
3. Пропускная способность памяти ~153 ГБ/с (+30 % к предыдущему поколению). Плюс улучшили энергоэффективность, так что перегреваться от вычислений больше не должен.
Есть только одно НО: цена начинается от $1599
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯96 32❤25😁12🤨3⚡2👍2🔥2
МТС открывает набор в Школу аналитиков данных — четвертый поток бесплатного онлайн-обучения для студентов последних курсов, Junior/Middle аналитиков и специалистов ИТ-сферы.
Программа рассчитана на 10 месяцев: два вебинара в неделю от экспертов MTS Web Services, разбор практических кейсов, домашние задания и обратная связь от преподавателей.
Ученики курса изучат SQL, Python, ML, Big Data, нейросети, NLP, Spark, ML System Design и научатся применять аналитические навыки в рекламе, геоаналитике и финтехе.
Всего планируется 80 студентов: 50 с обратной связью от преподавателей и 30 только для прослушивания лекций.
Лучшие смогут пройти стажировку в MTS Web Services и даже получить приглашение на работу. За активность начисляются баллы, которые можно обменять на мерч МТС.
Прием заявок продлится до 30 октября, результаты отбора станут известны 7 ноября.
Подать заявку и узнать подробности можно здесь.
Программа рассчитана на 10 месяцев: два вебинара в неделю от экспертов MTS Web Services, разбор практических кейсов, домашние задания и обратная связь от преподавателей.
Ученики курса изучат SQL, Python, ML, Big Data, нейросети, NLP, Spark, ML System Design и научатся применять аналитические навыки в рекламе, геоаналитике и финтехе.
Всего планируется 80 студентов: 50 с обратной связью от преподавателей и 30 только для прослушивания лекций.
Лучшие смогут пройти стажировку в MTS Web Services и даже получить приглашение на работу. За активность начисляются баллы, которые можно обменять на мерч МТС.
Прием заявок продлится до 30 октября, результаты отбора станут известны 7 ноября.
Подать заявку и узнать подробности можно здесь.
😁29👍22🗿15❤9🤯4🔥2
Существующие методы защиты моделей от взломов сломаны: совместная статья от OpenAI, DeepMind и Anthropic
Достаточно радикальная и категоричная работа (и потому интересная). Авторы утверждают, что любые существующие методы защиты LLM от джейлбрейков можно сломать и показывают как🏴☠️
В качестве примера они берут 12 популярных защитных механизмов (Spotlighting, PromptGuard, MELON, Circuit Breakers и др) и демонстрируют, что каждый можно обойти с успехом 90–100%. Даже если в оригинальных статьях заявляется "0% успешных атаки".
Все дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. Естественно, что так ничего не сработает.
Авторы говорят, что нужен другой подход. Против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку и может менять стратегию. Это может быть:
➖ RL-агент, который обучается на обратной связи модели.
➖ Какой-нибудь поисковой вид атак типа beam search и генетических алгоритмов.
➖ Если модель открытая, то можно оптимизировать градиент на уровне токенов. То есть постепенно меняем по 1-2 токена, смотрим на влияние, подстраиваемся.
➖ Ну или просто Red-teaming с живыми людьми, если денег не жалко. Это все еще самый эффективный способ.
Сейчас любой из этих методов имеет до 95% успеха взломов на самых популярных защитных системах. Вроде простой стресс-тест, но его не прошел никто. Забавно, конечно, но факт. По сути, это значит, что модели – это новый вид универсальных вирусов, которые мы вообще не умеем отлавливать.
Тем временем любая системная карта любого стартапа: да все безопасно, зуб даем☕️
Достаточно радикальная и категоричная работа (и потому интересная). Авторы утверждают, что любые существующие методы защиты LLM от джейлбрейков можно сломать и показывают как
В качестве примера они берут 12 популярных защитных механизмов (Spotlighting, PromptGuard, MELON, Circuit Breakers и др) и демонстрируют, что каждый можно обойти с успехом 90–100%. Даже если в оригинальных статьях заявляется "0% успешных атаки".
Все дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. Естественно, что так ничего не сработает.
Авторы говорят, что нужен другой подход. Против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку и может менять стратегию. Это может быть:
Сейчас любой из этих методов имеет до 95% успеха взломов на самых популярных защитных системах. Вроде простой стресс-тест, но его не прошел никто. Забавно, конечно, но факт. По сути, это значит, что модели – это новый вид универсальных вирусов, которые мы вообще не умеем отлавливать.
Тем временем любая системная карта любого стартапа: да все безопасно, зуб даем
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104❤38🤗21😁8🤯5🔥4👀4
Anthropic выпустили Claude Haiku 4.5
Это мини-версия Claude в новом поколении. На SWE-bench модель набирает 73.3%. Это больше, чем у Claude Sonnet 4 (72.7%). А ведь эту модель выпустили всего пол года назад, и она долго считалась SOTA для кодинга. Теперь такое же качество можно получать в три раза дешевле и в два раза быстрее.
Также модель превосходит Sonnet 4 в метриках на Computer Use. В общем, это полноценная замена не только предыдущего малыша Haiku 3.5, но и Sonnet 4 (которая, предположительно, в несколько раз больше по количеству параметров).
Модель уже раскатили в Claude Code, Claude для Chrome, в чат и API. Блогпост.
Осталось дождаться только Claude Opus 4.5
Это мини-версия Claude в новом поколении. На SWE-bench модель набирает 73.3%. Это больше, чем у Claude Sonnet 4 (72.7%). А ведь эту модель выпустили всего пол года назад, и она долго считалась SOTA для кодинга. Теперь такое же качество можно получать в три раза дешевле и в два раза быстрее.
Также модель превосходит Sonnet 4 в метриках на Computer Use. В общем, это полноценная замена не только предыдущего малыша Haiku 3.5, но и Sonnet 4 (которая, предположительно, в несколько раз больше по количеству параметров).
Модель уже раскатили в Claude Code, Claude для Chrome, в чат и API. Блогпост.
Осталось дождаться только Claude Opus 4.5
❤77👍30🔥15😁3⚡1