Пупырка AI

Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей + свежие задачи за январь.

(картинка 1)
В топе нос к носу идут Claude Opus 4.6 / Claude Code (с этой же моделью под капотом) и GPT-5.2. Последнюю тестировали с двумя настройками длины рассуждений, максимальным и средним, и результат там одинаковый, зато токенов можно сэкономить в два раза.

Все 4 лидера статистически значимо не отличаются друг от друга в решении задачи с первого раза, но если давать по 5 попыток и засчитывать лучшую, то Claude Code тут очень сильно вырывается вперёд — решает 70.8% по сравнению с ~60% у других.

Также замерили GPT-5.2-codex как модель и Codex как обёртку над ней — и получилось как-то грустно. Пока не вникал в причины того, почему так вышло 🤷‍♂️ легко могу представить что заточенная под Codex модель в других обёртках может чувствовать себя плохо и проседать, но почему так плохо в родной — загадка. И это на фоне того, что обычная GPT-5.2 на уровне Opus 4.6

(картинка 2)
Ну а весь опенсурс находится сильно ниже, Kimi K2.5 почему-то ниже Kimi K2 Thinking. Все они и хуже, и не существенно дешевле, чем Gemini 3 Flash.

Из интересного тут Qwen3-Coder-Next, супер маленькая модель от Alibaba c 3 миллиардами активных параметров — сидит межу MiniMax 2.5 и GLM-5 и обгоняет DeepSeek v3.2. Думаю, увидим с ней много экспериментов, статей и на многих задачах.

(картинка 3)
Если объединять результаты за декабрь и январь, то доверительные интервалы сузятся, так как оценка будет на 96 задачах — тогда на первом месте GPT-5.2-xhigh, которая стат. значимо обгоняет Claude Code / Opus 4.6.

Это не означает что эта модель лучше (и уж тем более не означает "лучше для всего"), но показывает, как плотно OpenAI догнали Anthropic в гонке за кодинг. Ещё бы что-то с текстами сделать, дотянувшись до уровня Gemini 3, и можно снова Небесный мандат забрать.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

81 views16:25

Пупырка AI

Сиолошная

Кстати, две новости этой недели про текущий проект Воложа Nebius

1) Покупка Tavily
Nebius договорился о покупке Tavily — провайдера agentic‑поиска, который умеет в real‑time веб‑поиск для автономных AI‑агентов. Сделка оценивается примерно в 275 млн долларов и должна принести в Nebius готовую инфраструктуру для grounding агентов (кодинг, трейдинг, энтерпрайз‑процессы) прямо из облака Nebius.

2) Отчёт за Q4 и 2025 год
Компания отчиталась за четвертый квартал и весь 2025‑й: выручка в Q4 выросла примерно в 6 раз год к году, до ~228 млн долларов, но оказалась чуть ниже консенсуса аналитиков. При этом Nebius впервые вышла в плюс по Adjusted EBITDA за квартал и сохраняет очень агрессивные планы по росту AI‑облака в 2026‑м на фоне высокого спроса на GPU‑мощность.

86 views16:28

Пупырка AI

Manus clawd в telegram или нет

upd: починили к вечеру воскресенья

manus запустили свой openclawd в телеге — хотел написать я вчера вечером. но его уже забанили или удалили🌚

тем не менее вот инвайт с бонусами в manus, думаю его ещё починят и все смогут попробовать свой clawdbot без заморочек.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

81 views09:52

Пупырка AI

Dario Amodei — “The Adolescence of Technology” Дарио Амодеи (CEO Anthropic) написал эссе про «подростковую» фазу технологий. Мы получаем очень мощные технологии, но общественные механизмы контроля отстают. Ну и описано как сценарии для «Черного зеркала».…

YouTube

Dario Amodei — “We are near the end of the exponential”

Dario Amodei thinks we are just a few years away from “a country of geniuses in a data center”. In this episode, we discuss what to make of the scaling hypothesis in the current RL regime, how AI will diffuse throughout the economy, whether Anthropic is underinvesting…

новое интервью Dario Amodei

https://youtu.be/n1E9IZfvGMA?si=NJEjBArmmLrVzXv9

1. выручка anthropic растёт безумно: 0 → 100м → 1млрд → ~10млрд. почти 10x каждый год. сам Амодеи говорит — это не может длиться вечно, экономика конечна. но мы сейчас в крутой части экспоненты.

2. «country of geniuses в датацентре» — 1–3 года. 90% что к 2035 это будет. речь не про маркетинговый agi, а про системы уровня нобелевских лауреатов, которые умеют полностью работать через компьютер и делать end-to-end задачи.

3. главный инсайт — технология будет готова раньше, чем мир сможет её внедрить. даже если ии найдёт лекарство от всего, всё равно есть производство, регуляторы, логистика. боттлнек — не capability, а diffusion.

4. end-to-end software engineering — 1–2 года. не «помогает писать код», а полностью: требования, архитектура, реализация, тесты, деплой. в anthropic уже есть инженеры, которые почти не пишут код вручную.

5. continual learning может вообще не стать критичным. большие контексты + rl + масштаб решают больше, чем казалось. многие «фундаментальные барьеры» уже растворились в compute.

6. по китаю позиция жёсткая: чипы и датацентры не продавать, бенефиты продавать. потому что ии + авторитаризм = очень опасная комбинация.

7. до 2030 возможны триллионы выручки в индустрии. звучит безумно, но он говорит это серьёзно.

Амодеи сейчас увереннее, чем три года назад. несмотря на весь хаос внедрения и регуляции.

79 viewsedited 08:48

Пупырка AI

Manus clawd в telegram или нет upd: починили к вечеру воскресенья manus запустили свой openclawd в телеге — хотел написать я вчера вечером. но его уже забанили или удалили🌚 тем не менее вот инвайт с бонусами в manus, думаю его ещё починят и все смогут…

OpenAI наняли создателя OpenClaw, так что скоро сделают всем и удобно.

а пока, телега разбанила Manus, можно поиграться пока ждем.

76 viewsedited 22:48

Пупырка AI

claude code для дизайнеров
https://nervegna.substack.com/p/claude-code-for-designers-a-practical

главный тезис: дело не в «научиться кодить», а в выстроить правильный процесс управления llm как исполнителем. в статье подробнее с акцентом на инструменты и процесс.

выжимка:

— идея: дизайнеру не обязательно становиться разработчиком, чтобы шипать. главный барьер — не код, а перевод дизайн-намерения в системную реализацию
— связка claude code + строгий процесс (gsd-подход): сначала уточнение требований, крайних кейсов и границ задачи, потом уже код
— флоу работы: вопросы → ресёрч при необходимости → фиксация requirements / roadmap / state → план по фазам → выполнение фаз → проверка и uat
— принцип атомарных коммитов: каждая задача — отдельный git-коммит, чтобы легко откатываться и продолжать в новых сессиях
— быстрый деплой для демо через github + vercel с автопубликацией
— интеграция figma через mcp: дизайн-токены и компоненты синкаются с кодом, меньше ручного рассинхрона
— для более сложных штук: auth и база через supabase + подключение внешних api

инстурменты:

— gsd (get shit done, фреймворк на GitHub) — не просто промпт, а фреймворк работы. он заставляет модель:
1. сначала задавать уточняющие вопросы
2. фиксировать требования и ограничения
3. выписывать roadmap
4. делить работу на фазы
5. работать по фазам, а не хаотично

— обязательные артефакты:
requirements md — что именно делаем
roadmap md — этапы
state md — текущее состояние проекта
это снижает «дрейф» модели и позволяет продолжать работу в новых сессиях

— claude code как основной агент для работы с репозиторием и многошаговых изменений

— vercel + github — быстрый способ деплоя и демо без лишней инфраструктуры

Substack

Claude Code for Designers: A Practical Guide

A Step-by-Step Guide to Designing and Shipping with Claude Code

❤2

80 viewsedited 15:15

Пупырка AI

Google представила WebMCP — способ для сайтов напрямую разговаривать с ии через браузер. раньше агенту нужно было анализировать интерфейс, кликать, парсить html и по сути угадывать, как работает страница. теперь сайт может сам описать, какие действия доступны и какие инструменты можно вызывать.

WebMCP работает через Chrome и позволяет ИИ обращаться к функциям сайта более структурированно и предсказуемо. это шаг к вебу, который изначально готов к агентам, а не только к людям.

https://developer.chrome.com/blog/webmcp-epp

Chrome for Developers

WebMCP is available for early preview | Blog | Chrome for Developers

WebMCP aims to provide a standard way for exposing structured tools, ensuring AI agents can perform actions on your site with increased speed, reliability, and precision.

👍2😱2

73 views18:44

export from Claude Code to Figma

x

👏4

103 views14:59

Пупырка AI

Forwarded from (Заметим в скобках)

дизайн-язык гугла для очков: https://design.google/library/transparent-screens

Google Design

How to Design for Transparent Screens - Google Design

Behind-the-scenes of designing the next generation of interfaces for AI glasses with displays—including Jetpack Compose Glimmer, the newly launched design system for Android extended reality (XR) experiences.

48 views20:16

Пупырка AI

Anthropic выкатили Claude Sonnet 4.6 — самое серьёзное обновление средней модели. новый Sonnet лучше пишет код, точнее следует инструкциям, сильнее в долгом контексте, контекст до 1M токенов в бете. Уже у всех в дефолте.

https://www.anthropic.com/news/claude-sonnet-4-6

Anthropic

Introducing Sonnet 4.6

Claude Sonnet 4.6 is a full upgrade of the model’s skills across coding, computer use, long-reasoning, agent planning, knowledge work, and design.

🔥4

47 viewsedited 20:28

Пупырка AI

Forwarded from Старший Авгур

https://claude.com/blog/improved-web-search-with-dynamic-filtering

"Чтобы повысить эффективность работы Claude с веб-поиском, наши инструменты веб-поиска и загрузки веб-страниц теперь автоматически пишут и выполняют код для постобработки результатов запросов. Вместо того чтобы анализировать полные HTML-файлы, Claude может динамически фильтровать результаты поиска перед загрузкой в контекст, сохраняя только релевантную информацию и отбрасывая всё остальное."

CodeAct в очередной раз победил. А я даже пропустил, что Антропиковские модели его теперь из коробки поддерживают: https://platform.claude.com/docs/en/agents-and-tools/tool-use/programmatic-tool-calling

25 views22:06

About

Blog

Apps

Platform