Останется ли Nvidia монополистом в ИИ, или рынок уже начал ломаться
На Data Fusion только что послушали сильную практическую сессию про альтернативы Nvidia. На сцене были эксперты из МФТИ, ИИ МГУ, НотаТех, ВТБ и Т1. Разговор получился неожиданно приземленным: без хайпа, зато с цифрами, кейсами и трезвым взглядом на то, что реально происходит с инфраструктурой.
Главное: поиск альтернатив – больше не экзотика. Это вынужденная стратегия. ИИ нужно внедрять всем, а значит всем нужны мощности. Но доступ к Nvidia усложняется, и для многих стран, включая Китай и Россию, это уже вопрос не удобства, а возможности вообще участвовать в гонке.
⚙️ Отсюда и начинается движение. В первую очередь – появляются китайские GPU. Артем Каранович из T1 сравнивает этот рынок с рынком автомобилей: если раньше китайцы выглядели странно и сыро, то сейчас появляются полноценные игроки.
Лев Меркушов из ВТБ рассказал, что они проводили масштабное тестирование на широком спектре задач и установили, что китайские карточки – это уже вполне production-ready решение, и компании начинают осознанно диверсифицироваться. Да, это сложнее, и проблем достаточно, но зависеть от одного вендора становится слишком рискованно.
⚙️ Но железо – это только один слой. Когда давление на инфраструктуру растет, неизбежно приходится оптимизироваться и инженерно.
И тут показательный кейс был от Ильи Семенова из Ростелекома. Они занимались анализом видеопотока для ЕГЭ (выявляли списывающих), и нужно было ускорить тяжелый пайплайн в 4 раза без изменения кластера.
В итоге инженеры сделали ×9 – за счет перехода на смешанную точность (FP16 + FP32) и дистилляции. То есть часть проблем с «не хватает GPU» на практике часто решается не закупкой, а нормальной работой с моделями.
⚙️ В итоге картина такая: Nvidia по-прежнему остается лидером – за счет экосистемы и удобства. Но монополия начинает размываться. Сам Хуанг признает, что конкуренция появляется, и сильная.
А что касается практики, то сейчас альтернатива – это не один «убийца», а комбинация: другое железо, инженерные оптимизации и адаптация софта.
Еще раз напоминаем, что трансляция Data Fusion идет прямо сейчас здесь
На Data Fusion только что послушали сильную практическую сессию про альтернативы Nvidia. На сцене были эксперты из МФТИ, ИИ МГУ, НотаТех, ВТБ и Т1. Разговор получился неожиданно приземленным: без хайпа, зато с цифрами, кейсами и трезвым взглядом на то, что реально происходит с инфраструктурой.
Главное: поиск альтернатив – больше не экзотика. Это вынужденная стратегия. ИИ нужно внедрять всем, а значит всем нужны мощности. Но доступ к Nvidia усложняется, и для многих стран, включая Китай и Россию, это уже вопрос не удобства, а возможности вообще участвовать в гонке.
Лев Меркушов из ВТБ рассказал, что они проводили масштабное тестирование на широком спектре задач и установили, что китайские карточки – это уже вполне production-ready решение, и компании начинают осознанно диверсифицироваться. Да, это сложнее, и проблем достаточно, но зависеть от одного вендора становится слишком рискованно.
И тут показательный кейс был от Ильи Семенова из Ростелекома. Они занимались анализом видеопотока для ЕГЭ (выявляли списывающих), и нужно было ускорить тяжелый пайплайн в 4 раза без изменения кластера.
В итоге инженеры сделали ×9 – за счет перехода на смешанную точность (FP16 + FP32) и дистилляции. То есть часть проблем с «не хватает GPU» на практике часто решается не закупкой, а нормальной работой с моделями.
А что касается практики, то сейчас альтернатива – это не один «убийца», а комбинация: другое железо, инженерные оптимизации и адаптация софта.
Еще раз напоминаем, что трансляция Data Fusion идет прямо сейчас здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
😁82🗿30👍23❤19🔥3🤔3🤝1💘1👾1 1
Data Secrets
Anthropic выпустили Claude Managed Agents – среду для запуска сложных и долгих агентных задач По сути, автопилот: вы задаете цель, инструменты и ограничения, а платформа берет на себя весь рантайм, все планирование, весь мониторинг и инфраструктуру. То…
This media is not supported in your browser
VIEW IN TELEGRAM
1000 и 1 стартап на агентах сегодня:
🫡86 27 14❤4👏2👾1
ReplaceMe: в ИТМО придумали, как радикально ускорять LLM без дообучения
На конференции Data Fusion уже 5 лет вручают премию Data Fusion Awards. Награждают компании, лаборатории и отдельные статьи. С каждым годом популярность премии растет: в 2026 на трек "Научный прорыв года в ИИ" поступило уже более 140 заявок. Призовой фонд составил 3 миллиона рублей.
Поздравляем победителей этого года и советуем к прочтению их работы:
1. Татьяна Земскова с серией работ о 3DGraphLLM – про то, как ребра графов могут помочь роботам лучше понимать окружающий мир
2. Александр Колесов с серией работ Field Matching – о разработке генеративной модели на основе идеи электростатического согласования полей
3. Дмитрий Шопхоев с работой ReplaceMe – про сжатие LLM
Последняя работа приглянулась нам особенно. Студенты ИТМО с научными руководителями обнаружили крайне интересную вещь: в трансформерах целые группы слоев можно схлопывать до линейных операций, существенно ускоряя модели без больших потерь в качестве.
Почти любая попытка прунинга обычно упирается в необходимость дообучения, но здесь ученые продемонстрировали совершенно другой подход. Они берут последовательность трансформер-блоков, которые "по идее" выполняют сложные нелинейные преобразования, и заменяют их одной линейной операцией, подобранной так, чтобы она максимально точно воспроизводила их поведение.
Для этого не нужно обучать модель заново – достаточно прогнать небольшой калибровочный датасет через оригинальную сеть и посчитать линейное отображение между входами и выходами этих блоков.
Авторы показывают, что можно удалить примерно до четверти слоев и сохранить около 90% исходной производительности. Это очень сильный результат, если учитывать, что речь идёт о полностью training-free подходе. На фоне других методов сжатия ReplaceMe выглядит особенно сильно: при сопоставимом уровне прунинга он держит качество лучше большинства подходов и при этом избавляет от дорогостоящего дообучения.
Действительно значимая работа. Еще раз поздравляем авторов с заслуженной победой и желаем дальнейших сильных результатов и научных прорывов!
На конференции Data Fusion уже 5 лет вручают премию Data Fusion Awards. Награждают компании, лаборатории и отдельные статьи. С каждым годом популярность премии растет: в 2026 на трек "Научный прорыв года в ИИ" поступило уже более 140 заявок. Призовой фонд составил 3 миллиона рублей.
Поздравляем победителей этого года и советуем к прочтению их работы:
1. Татьяна Земскова с серией работ о 3DGraphLLM – про то, как ребра графов могут помочь роботам лучше понимать окружающий мир
2. Александр Колесов с серией работ Field Matching – о разработке генеративной модели на основе идеи электростатического согласования полей
3. Дмитрий Шопхоев с работой ReplaceMe – про сжатие LLM
Последняя работа приглянулась нам особенно. Студенты ИТМО с научными руководителями обнаружили крайне интересную вещь: в трансформерах целые группы слоев можно схлопывать до линейных операций, существенно ускоряя модели без больших потерь в качестве.
Почти любая попытка прунинга обычно упирается в необходимость дообучения, но здесь ученые продемонстрировали совершенно другой подход. Они берут последовательность трансформер-блоков, которые "по идее" выполняют сложные нелинейные преобразования, и заменяют их одной линейной операцией, подобранной так, чтобы она максимально точно воспроизводила их поведение.
Для этого не нужно обучать модель заново – достаточно прогнать небольшой калибровочный датасет через оригинальную сеть и посчитать линейное отображение между входами и выходами этих блоков.
Авторы показывают, что можно удалить примерно до четверти слоев и сохранить около 90% исходной производительности. Это очень сильный результат, если учитывать, что речь идёт о полностью training-free подходе. На фоне других методов сжатия ReplaceMe выглядит особенно сильно: при сопоставимом уровне прунинга он держит качество лучше большинства подходов и при этом избавляет от дорогостоящего дообучения.
Действительно значимая работа. Еще раз поздравляем авторов с заслуженной победой и желаем дальнейших сильных результатов и научных прорывов!
🔥247❤58👍43🗿14 7☃2🤔2🤯2 2🍓1👾1
OpenAI сделали новую Pro Lite подписку за 100 долларов
Доступы будут все те же самые, что и у «настоящего» Pro за 200$, только в Codex лимиты поменьше.
То есть: вам доступна GPT-5.4 Pro, ChatGPT Pulse и есть безлимитный доступ к Instant и Thinking моделям в ChatGPT, НО в Codex ваши лимиты в 5 раз больше, чем в Plus (а не в ~10 раз больше, как в полноценном Pro). А еще:
Опять же, все для конкуренции с Anthropic: у тех уже давно есть Max подписка за 100 долларов. Такой формат видимо пользуется популярностью, потому что хорошо закрывает большой и страшный для юзера разрыв между 20$ и 200$, и очевидно больше подходит очень многим.
https://chatgpt.com/pricing/
Доступы будут все те же самые, что и у «настоящего» Pro за 200$, только в Codex лимиты поменьше.
То есть: вам доступна GPT-5.4 Pro, ChatGPT Pulse и есть безлимитный доступ к Instant и Thinking моделям в ChatGPT, НО в Codex ваши лимиты в 5 раз больше, чем в Plus (а не в ~10 раз больше, как в полноценном Pro). А еще:
Чтобы отпраздновать запуск, мы увеличиваем использование Codex до 31 мая, чтобы подписчики Pro Lite $100 получили до 10х лимитов ChatGPT Plus на Codex для реализации ваших самых амбициозных идей.
Опять же, все для конкуренции с Anthropic: у тех уже давно есть Max подписка за 100 долларов. Такой формат видимо пользуется популярностью, потому что хорошо закрывает большой и страшный для юзера разрыв между 20$ и 200$, и очевидно больше подходит очень многим.
https://chatgpt.com/pricing/
👍75🔥27❤18😁7
Оператора зовут Афанасий Иванов (сокращенно – АИ). Он использует те же инструменты и интерфейсы, что и живые сотрудники. Главная его фича – он позволяет легко масштабировать нагрузку, помогая бизнесу расти.
О таком ИИ-специалисте на GoCloud 2026 рассказал руководитель направления обработки естественного языка (NLP) в Центре ИИ Т-Банка Артем Бондарь. По его словам, Афанасий прошел тот же путь, что и обычный сотрудник, например, две недели получал доступ в системы. Именно благодаря такому drop-in сценарию он способен работать по тем же рельсам, что и живые люди.
Эксперт отметил, что самый заметный сегодня финансовый эффект дает автоматизация поддержки и операционки. Для этого задействуют целый спектр GenAI-подходов. Помимо AI-воркера, в компании есть еще два основных направления. Для четко регламентированных бизнес-процессов — пошаговая автоматизация с помощью LLM, а для общих задач — агенты, которые ищут решения в сконструированной для них среде.
Получается, KPI у Афанасия тоже есть. Что думаете, коллеги?
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤242👍78🤨67❤🔥50🔥40🗿19😁11🤯2👌1
Традиционно начинаем день с обновлений Anthropic: на этот раз они выкатили Advisor Strategy
Это способ получить почти топовое качество без оплаты топовой модели. Вот как работает:
– Есть две модели: Executor (исполнитель, дешевая и быстрая модель, Sonnet) и Advisor (советник, дорогая и сильная модель, Opus).
– Исполнитель делает всю основную работу. Но когда сталкивается со сложным моментом, вызывает advisor, который подсказывает, что делать дальше.
– Все происходит внутри одного запроса и вмешательства юзера не требует.
На самом деле задач, которые требуют вмешательства сильной модели, не так много. Так что на практике такой подход выходит ощутимо дешевле Opus (примерно на 10-12%) с качеством сильно выше Sonnet. Например, относительно базового Sonnet на SWE bench метрика растет почти на 3 процентных пункта.
Полезная вещь
Это способ получить почти топовое качество без оплаты топовой модели. Вот как работает:
– Есть две модели: Executor (исполнитель, дешевая и быстрая модель, Sonnet) и Advisor (советник, дорогая и сильная модель, Opus).
– Исполнитель делает всю основную работу. Но когда сталкивается со сложным моментом, вызывает advisor, который подсказывает, что делать дальше.
– Все происходит внутри одного запроса и вмешательства юзера не требует.
На самом деле задач, которые требуют вмешательства сильной модели, не так много. Так что на практике такой подход выходит ощутимо дешевле Opus (примерно на 10-12%) с качеством сильно выше Sonnet. Например, относительно базового Sonnet на SWE bench метрика растет почти на 3 процентных пункта.
Полезная вещь
❤136🔥62👍39😁3
Practical ML Conf 2026 принимает заявки на доклады
Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+.
Ждут именно практику: ML-технологии, которые уже работают в продакшене и приносят измеримую пользу. Заявки оцениваются по четырём критериям – новизна, польза для сообщества, практическая применимость и техническая глубина.
Тем, кого отберут, помогут с подготовкой: проработка доклада с программным комитетом, работа с тренером по публичным выступлениям, оформление презентации от дизайнеров. Плюс промо до и после конференции.
Ключевые даты:
➖ до 22 мая – прием заявок
➖ 6-10 июля – решение программного комитета
➖ август-сентябрь – подготовка совместно с комитетом
➖ 19 сентября – выступление
Если есть что рассказать по существу – это хороший повод заявить о себе перед профессиональным сообществом.
Подробности здесь
Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+.
Ждут именно практику: ML-технологии, которые уже работают в продакшене и приносят измеримую пользу. Заявки оцениваются по четырём критериям – новизна, польза для сообщества, практическая применимость и техническая глубина.
Тем, кого отберут, помогут с подготовкой: проработка доклада с программным комитетом, работа с тренером по публичным выступлениям, оформление презентации от дизайнеров. Плюс промо до и после конференции.
Ключевые даты:
Если есть что рассказать по существу – это хороший повод заявить о себе перед профессиональным сообществом.
Подробности здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥9👍6😁4❤🔥3🤔3🗿3🤗2
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁391 96🗿36💯14🆒14👍8🤯6😎5❤2🔥2🦄1
Стало известно, что Anthropic собирается разрабатывать собственные ИИ-чипы
Сейчас они используют смесь из GPU Nvidia, TPU от Google и чипов Amazon. Но спрос на Claude продолжает быстро расти, и Anthropic снова сталкивается с нехваткой ускорителей.
С помощью своих чипов они планируют еще больше диверсифицировать инфраструктуру и снизить зависимость от внешних вендоров.
Напоминаем, что OpenAI тоже занимаются разработкой собственных чипов, так что это уже тренд.
Сейчас они используют смесь из GPU Nvidia, TPU от Google и чипов Amazon. Но спрос на Claude продолжает быстро расти, и Anthropic снова сталкивается с нехваткой ускорителей.
С помощью своих чипов они планируют еще больше диверсифицировать инфраструктуру и снизить зависимость от внешних вендоров.
Напоминаем, что OpenAI тоже занимаются разработкой собственных чипов, так что это уже тренд.
❤95👍58🔥29😁9💯2❤🔥1⚡1
SWE-bench Verified и Terminal-Bench могут быть на 100% взломаны с помощью простого хака
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA☕️
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁278 53 20❤18👍7⚡3🔥1👌1
В дом Сэма Альтмана бросили коктейль Молотова. Он считает, что это произошло из-за недавней статьи The New Yorker
Прошлой ночью на дом Сэма в Сан-Франциско бросили коктейль Молотова. К счастью, он отскочил от дома и загорелись только ворота. Никто не пострадал.
Примерно через час подозреваемого задержали около офиса OpenAI. Предположительно, он собирался поджечь и его. Парню всего 20 лет.
После инцидента Альтман написал пост о случившемся. В нем он пишет, что «недооценил силу слов».
Он утверждает, что люди и СМИ сами нагнетают ситуацию вокруг ИИ. Риски есть, но они не такие, как в желтых заголовках. Их нужно признавать, но не скатываться в панику: иначе это приводит к вот таким последствиям.
https://blog.samaltman.com/2279512
Прошлой ночью на дом Сэма в Сан-Франциско бросили коктейль Молотова. К счастью, он отскочил от дома и загорелись только ворота. Никто не пострадал.
Примерно через час подозреваемого задержали около офиса OpenAI. Предположительно, он собирался поджечь и его. Парню всего 20 лет.
После инцидента Альтман написал пост о случившемся. В нем он пишет, что «недооценил силу слов».
Несколько дней назад вышла провокационная статья обо мне. Вчера один человек сказал мне, что она появилась на фоне общей тревоги вокруг ИИ и могла сделать ситуацию для меня более опасной. Я тогда отмахнулся. <очевидно, Сэм говорит вот об этой статье>
А теперь я проснулся среди ночи, злой, и понимаю, что недооценил силу слов и нарративов.
Он утверждает, что люди и СМИ сами нагнетают ситуацию вокруг ИИ. Риски есть, но они не такие, как в желтых заголовках. Их нужно признавать, но не скатываться в панику: иначе это приводит к вот таким последствиям.
https://blog.samaltman.com/2279512
🤯93👍35 24😁12 10❤9🔥3🤔2🕊2🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
Как быстро смотреть интервью и лекции и не терять суть
Сейчас выходит просто масса интересных интервью и докладов. Смотреть их крайне полезно для понимания того, куда движется индустрия и рынок в целом. Но смотреть все целиком – это часы времени, иногда достаточно качественного саммари.
В Яндекс Браузере есть удобный способ быстро вытаскивать основные мысли из любого видео.
Алиса AI открывается прямо сбоку, автоматически подтягивает контекст ролика и за несколько секунд собирает ключевые поинты или отвечает на вопросы. В ее ответах есть кликабельные таймкоды, по ним удобно переходить на нужные моменты.
То же самое можно делать со статьями или любыми другими страницами. Время для понимания материала сводится к минимуму, и все работает в одной вкладке.
Показываем, как воспользоваться ↑
Сейчас выходит просто масса интересных интервью и докладов. Смотреть их крайне полезно для понимания того, куда движется индустрия и рынок в целом. Но смотреть все целиком – это часы времени, иногда достаточно качественного саммари.
В Яндекс Браузере есть удобный способ быстро вытаскивать основные мысли из любого видео.
Алиса AI открывается прямо сбоку, автоматически подтягивает контекст ролика и за несколько секунд собирает ключевые поинты или отвечает на вопросы. В ее ответах есть кликабельные таймкоды, по ним удобно переходить на нужные моменты.
То же самое можно делать со статьями или любыми другими страницами. Время для понимания материала сводится к минимуму, и все работает в одной вкладке.
Показываем, как воспользоваться ↑
2😁153🗿73❤33 23🤨16👍14🔥6🤯4🐳4🤔2
Акции Cloudflare упали на 13% из-за выпуска Claude Mythos
Последние дни инвесторы активно распродают акции компаний, которые занимаются софтом и кибербезом. Под удар попал даже такой гигант, как Cloudflare: их акции просели аж на 13%.
Несмотря на ограниченный релиз, рынок уже считает модель мощнейшей угрозой для сектора cybersecurity, да и всего SaaS в целом.
Последние дни инвесторы активно распродают акции компаний, которые занимаются софтом и кибербезом. Под удар попал даже такой гигант, как Cloudflare: их акции просели аж на 13%.
Несмотря на ограниченный релиз, рынок уже считает модель мощнейшей угрозой для сектора cybersecurity, да и всего SaaS в целом.
Директор по ИИ в AMD доказала, что Claude стал хуже работать с момента релиза
Как только появился ИИ, люди постоянно обсуждает, что та или иная модель якобы сначала работала хорошо, а потом поглупела (или скорее ее «намеренно ослабили»). Этому эффекту, кажется, уже пора дать официальное название. Но иногда, когда вам кажется – вам не кажется.
https://github.com/anthropics/claude-code/issues/42796
Стелла Лорензо, старший директор по ИИ в AMD, опубликовала детальный анализ логов Claude Code, показавший значительное ухудшение производительности модели с февраля по март. Она изучила 6852 сессии, 234 760 вызовов инструментов и 17 871 блоков ризонинга, и вот что выяснила:
– Медиана длины ризонинга снизилась с ~2200 символов в январе-феврале до ~600 символов к марту (падение на 73%)
– Соотношение чтений файлов (операций типа read) к правкам упало с 6,6:1 до 2:1. То есть раньше модель вдумчиво изучала код перед редактированием, а теперь делает это поверхностно.
– Количество попыток сбежать от задач (например, «should I continue?») выросло с 0 до 173 за 17 дней после 8 марта. Самопротиворечия в рассуждениях утроились.
Из-за всего перечисленного стоимость использования Claude в день подскочила в 122 раза.
Деградация агента при этом почему-то совпала с релизом thinking redaction (8 марта), скрывающим ризонинг, хотя Anthropic утверждает, что это исключительно UI-изменение.
Кстати, Борис Черный, создатель Claude Code, в комментах к issue ответил, что в агенте просто менялись значения по умолчанию (типа adaptive thinking и Medium effort) и потому результаты анализа искажены. Вам показалось👍
Как только появился ИИ, люди постоянно обсуждает, что та или иная модель якобы сначала работала хорошо, а потом поглупела (или скорее ее «намеренно ослабили»). Этому эффекту, кажется, уже пора дать официальное название. Но иногда, когда вам кажется – вам не кажется.
https://github.com/anthropics/claude-code/issues/42796
Стелла Лорензо, старший директор по ИИ в AMD, опубликовала детальный анализ логов Claude Code, показавший значительное ухудшение производительности модели с февраля по март. Она изучила 6852 сессии, 234 760 вызовов инструментов и 17 871 блоков ризонинга, и вот что выяснила:
– Медиана длины ризонинга снизилась с ~2200 символов в январе-феврале до ~600 символов к марту (падение на 73%)
– Соотношение чтений файлов (операций типа read) к правкам упало с 6,6:1 до 2:1. То есть раньше модель вдумчиво изучала код перед редактированием, а теперь делает это поверхностно.
– Количество попыток сбежать от задач (например, «should I continue?») выросло с 0 до 173 за 17 дней после 8 марта. Самопротиворечия в рассуждениях утроились.
Из-за всего перечисленного стоимость использования Claude в день подскочила в 122 раза.
Деградация агента при этом почему-то совпала с релизом thinking redaction (8 марта), скрывающим ризонинг, хотя Anthropic утверждает, что это исключительно UI-изменение.
Кстати, Борис Черный, создатель Claude Code, в комментах к issue ответил, что в агенте просто менялись значения по умолчанию (типа adaptive thinking и Medium effort) и потому результаты анализа искажены. Вам показалось
Please open Telegram to view this post
VIEW IN TELEGRAM
😁238 89❤44👍12 7🤔4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем в Польше автоматизация выходит на новый уровень
Самое вирусное видео соцсетей сегодня: в Варшаве робот Unitree G1 разгоняет диких кабанов.
В последние годы их популяция настолько выросла, что они начинают конфликтовать с людьми прямо в городе, так что инициативные жители начали прибегать к прогрессивным методам решения проблем🤖
Самое вирусное видео соцсетей сегодня: в Варшаве робот Unitree G1 разгоняет диких кабанов.
В последние годы их популяция настолько выросла, что они начинают конфликтовать с людьми прямо в городе, так что инициативные жители начали прибегать к прогрессивным методам решения проблем
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁382😍51❤40👏12🔥7🤯7❤🔥2👾1
Neural Computers: ученые из Meta* AI предложили сделать из моделей полноценные компьютеры
В соавторах Юнген Шмидхубер, так что читаем внимательно, чтобы точно знать, когда у него в очередной раз украдут гениальную идею🤫
TL;DR: авторы предлагают новую ветвь развития генеративных моделей – нейронные компьютеры (NC). NC должны объединить в себе память, вычисления, ввод и вывод. Если сейчас агенты и компьютер разделены, и модель управляет компьютером, то здесь предлагается все это слить, и сделать компьютером саму модель.
На практике они заходят через World models и строят видео-модель, которую учат симулировать компьютер. То есть модель:
1. Видит экран с терминалом (предыдущее состояние) и получает команды
2. Генерирует кадр следующего экрана, на котором выполняются нужные действия
То же самое с GUI: модель видит экран -> получает команду, например, открыть файл -> генерирует следующий экран с открытым файлом -> так получается видео, как будто компьютер на автопилоте выполняет какую-то задачу. Буквально отрисовка поведения ОС.
Учили все это на 1100 часов видеозаписей терминала и ~1500 часов взаимодействий (мышь, клавиатура, экран). Внешне получившаяся модель даже генерирует вполне реалистичный терминал, и команды выполняются визуально правильно. Вот здесь лежит много примеров.
Если присмотреться, то точность текста кое-где еще проседает. Ну и, конечно, есть провалы в самой логике: точность на арифметике всего 4% (хотя некоторые хаки в промптинге дают уже 83%).
Короче, модель пока больше выглядит как компьютер, чем думает как компьютер. Но тут вся соль в идее. Авторы пишут, что в идеале хотят прийти к Completely Neural Computer, то есть к полноценной работающей модели целиком нейронного компьютера.
Футуристичненько
arxiv.org/abs/2604.06425
В соавторах Юнген Шмидхубер, так что читаем внимательно, чтобы точно знать, когда у него в очередной раз украдут гениальную идею
TL;DR: авторы предлагают новую ветвь развития генеративных моделей – нейронные компьютеры (NC). NC должны объединить в себе память, вычисления, ввод и вывод. Если сейчас агенты и компьютер разделены, и модель управляет компьютером, то здесь предлагается все это слить, и сделать компьютером саму модель.
На практике они заходят через World models и строят видео-модель, которую учат симулировать компьютер. То есть модель:
1. Видит экран с терминалом (предыдущее состояние) и получает команды
2. Генерирует кадр следующего экрана, на котором выполняются нужные действия
То же самое с GUI: модель видит экран -> получает команду, например, открыть файл -> генерирует следующий экран с открытым файлом -> так получается видео, как будто компьютер на автопилоте выполняет какую-то задачу. Буквально отрисовка поведения ОС.
Учили все это на 1100 часов видеозаписей терминала и ~1500 часов взаимодействий (мышь, клавиатура, экран). Внешне получившаяся модель даже генерирует вполне реалистичный терминал, и команды выполняются визуально правильно. Вот здесь лежит много примеров.
Если присмотреться, то точность текста кое-где еще проседает. Ну и, конечно, есть провалы в самой логике: точность на арифметике всего 4% (хотя некоторые хаки в промптинге дают уже 83%).
Короче, модель пока больше выглядит как компьютер, чем думает как компьютер. Но тут вся соль в идее. Авторы пишут, что в идеале хотят прийти к Completely Neural Computer, то есть к полноценной работающей модели целиком нейронного компьютера.
Футуристичненько
arxiv.org/abs/2604.06425
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤95🤨69🦄16👍14😁8 6👨💻5☃2🫡1👾1