Пупырка AI
152 subscribers
788 photos
420 videos
1 file
770 links
Один канал про AI, который тебе нужен — дизайн, продукт и слухи. Авторские репосты, цитаты и жвачка. Основной канал — @logicIntermission
Download Telegram
Forwarded from Сиолошная
Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей + свежие задачи за январь.

(картинка 1)
В топе нос к носу идут Claude Opus 4.6 / Claude Code (с этой же моделью под капотом) и GPT-5.2. Последнюю тестировали с двумя настройками длины рассуждений, максимальным и средним, и результат там одинаковый, зато токенов можно сэкономить в два раза.

Все 4 лидера статистически значимо не отличаются друг от друга в решении задачи с первого раза, но если давать по 5 попыток и засчитывать лучшую, то Claude Code тут очень сильно вырывается вперёд — решает 70.8% по сравнению с ~60% у других.

Также замерили GPT-5.2-codex как модель и Codex как обёртку над ней — и получилось как-то грустно. Пока не вникал в причины того, почему так вышло 🤷‍♂️ легко могу представить что заточенная под Codex модель в других обёртках может чувствовать себя плохо и проседать, но почему так плохо в родной — загадка. И это на фоне того, что обычная GPT-5.2 на уровне Opus 4.6

(картинка 2)
Ну а весь опенсурс находится сильно ниже, Kimi K2.5 почему-то ниже Kimi K2 Thinking. Все они и хуже, и не существенно дешевле, чем Gemini 3 Flash.

Из интересного тут Qwen3-Coder-Next, супер маленькая модель от Alibaba c 3 миллиардами активных параметров — сидит межу MiniMax 2.5 и GLM-5 и обгоняет DeepSeek v3.2. Думаю, увидим с ней много экспериментов, статей и на многих задачах.

(картинка 3)
Если объединять результаты за декабрь и январь, то доверительные интервалы сузятся, так как оценка будет на 96 задачах — тогда на первом месте GPT-5.2-xhigh, которая стат. значимо обгоняет Claude Code / Opus 4.6.

Это не означает что эта модель лучше (и уж тем более не означает "лучше для всего"), но показывает, как плотно OpenAI догнали Anthropic в гонке за кодинг. Ещё бы что-то с текстами сделать, дотянувшись до уровня Gemini 3, и можно снова Небесный мандат забрать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Ребята из Nebius наконец-то обновили RE-Bench и добавили кучу новых моделей + свежие задачи за январь. (картинка 1) В топе нос к носу идут Claude Opus 4.6 / Claude Code (с этой же моделью под капотом) и GPT-5.2. Последнюю тестировали с двумя настройками длины…
Кстати, две новости этой недели про текущий проект Воложа Nebius

1) Покупка Tavily
Nebius договорился о покупке Tavily — провайдера agentic‑поиска, который умеет в real‑time веб‑поиск для автономных AI‑агентов. Сделка оценивается примерно в 275 млн долларов и должна принести в Nebius готовую инфраструктуру для grounding агентов (кодинг, трейдинг, энтерпрайз‑процессы) прямо из облака Nebius.

2) Отчёт за Q4 и 2025 год
Компания отчиталась за четвертый квартал и весь 2025‑й: выручка в Q4 выросла примерно в 6 раз год к году, до ~228 млн долларов, но оказалась чуть ниже консенсуса аналитиков. При этом Nebius впервые вышла в плюс по Adjusted EBITDA за квартал и сохраняет очень агрессивные планы по росту AI‑облака в 2026‑м на фоне высокого спроса на GPU‑мощность.
Manus clawd в telegram или нет

upd:
починили к вечеру воскресенья

manus запустили свой openclawd в телеге — хотел написать я вчера вечером. но его уже забанили или удалили🌚

тем не менее вот инвайт с бонусами в manus, думаю его ещё починят и все смогут попробовать свой clawdbot без заморочек.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Пупырка AI
Dario Amodei — “The Adolescence of Technology” Дарио Амодеи (CEO Anthropic) написал эссе про «подростковую» фазу технологий. Мы получаем очень мощные технологии, но общественные механизмы контроля отстают. Ну и описано как сценарии для «Черного зеркала».…
новое интервью Dario Amodei

https://youtu.be/n1E9IZfvGMA?si=NJEjBArmmLrVzXv9

1. выручка anthropic растёт безумно: 0 → 100м → 1млрд → ~10млрд. почти 10x каждый год. сам Амодеи говорит — это не может длиться вечно, экономика конечна. но мы сейчас в крутой части экспоненты.

2. «country of geniuses в датацентре» — 1–3 года. 90% что к 2035 это будет. речь не про маркетинговый agi, а про системы уровня нобелевских лауреатов, которые умеют полностью работать через компьютер и делать end-to-end задачи.

3. главный инсайт — технология будет готова раньше, чем мир сможет её внедрить. даже если ии найдёт лекарство от всего, всё равно есть производство, регуляторы, логистика. боттлнек — не capability, а diffusion.

4. end-to-end software engineering — 1–2 года. не «помогает писать код», а полностью: требования, архитектура, реализация, тесты, деплой. в anthropic уже есть инженеры, которые почти не пишут код вручную.

5. continual learning может вообще не стать критичным. большие контексты + rl + масштаб решают больше, чем казалось. многие «фундаментальные барьеры» уже растворились в compute.

6. по китаю позиция жёсткая: чипы и датацентры не продавать, бенефиты продавать. потому что ии + авторитаризм = очень опасная комбинация.

7. до 2030 возможны триллионы выручки в индустрии. звучит безумно, но он говорит это серьёзно.

Амодеи сейчас увереннее, чем три года назад. несмотря на весь хаос внедрения и регуляции.
claude code для дизайнеров
https://nervegna.substack.com/p/claude-code-for-designers-a-practical

главный тезис: дело не в «научиться кодить», а в выстроить правильный процесс управления llm как исполнителем. в статье подробнее с акцентом на инструменты и процесс.

выжимка:
— идея: дизайнеру не обязательно становиться разработчиком, чтобы шипать. главный барьер — не код, а перевод дизайн-намерения в системную реализацию
— связка claude code + строгий процесс (gsd-подход): сначала уточнение требований, крайних кейсов и границ задачи, потом уже код
— флоу работы: вопросы → ресёрч при необходимости → фиксация requirements / roadmap / state → план по фазам → выполнение фаз → проверка и uat
— принцип атомарных коммитов: каждая задача — отдельный git-коммит, чтобы легко откатываться и продолжать в новых сессиях
— быстрый деплой для демо через github + vercel с автопубликацией
— интеграция figma через mcp: дизайн-токены и компоненты синкаются с кодом, меньше ручного рассинхрона
— для более сложных штук: auth и база через supabase + подключение внешних api


инстурменты:
— gsd (get shit done, фреймворк на GitHub) — не просто промпт, а фреймворк работы. он заставляет модель:
1. сначала задавать уточняющие вопросы
2. фиксировать требования и ограничения
3. выписывать roadmap
4. делить работу на фазы
5. работать по фазам, а не хаотично

— обязательные артефакты:
requirements md — что именно делаем
roadmap md — этапы
state md — текущее состояние проекта
это снижает «дрейф» модели и позволяет продолжать работу в новых сессиях

— claude code как основной агент для работы с репозиторием и многошаговых изменений

— vercel + github — быстрый способ деплоя и демо без лишней инфраструктуры
2
Google представила WebMCP — способ для сайтов напрямую разговаривать с ии через браузер. раньше агенту нужно было анализировать интерфейс, кликать, парсить html и по сути угадывать, как работает страница. теперь сайт может сам описать, какие действия доступны и какие инструменты можно вызывать.

WebMCP работает через Chrome и позволяет ИИ обращаться к функциям сайта более структурированно и предсказуемо. это шаг к вебу, который изначально готов к агентам, а не только к людям.

https://developer.chrome.com/blog/webmcp-epp
👍2😱2
Media is too big
VIEW IN TELEGRAM
export from Claude Code to Figma

x
👏4
Anthropic выкатили Claude Sonnet 4.6 — самое серьёзное обновление средней модели. новый Sonnet лучше пишет код, точнее следует инструкциям, сильнее в долгом контексте, контекст до 1M токенов в бете. Уже у всех в дефолте.

https://www.anthropic.com/news/claude-sonnet-4-6
🔥4
https://claude.com/blog/improved-web-search-with-dynamic-filtering

"Чтобы повысить эффективность работы Claude с веб-поиском, наши инструменты веб-поиска и загрузки веб-страниц теперь автоматически пишут и выполняют код для постобработки результатов запросов. Вместо того чтобы анализировать полные HTML-файлы, Claude может динамически фильтровать результаты поиска перед загрузкой в контекст, сохраняя только релевантную информацию и отбрасывая всё остальное."

CodeAct в очередной раз победил. А я даже пропустил, что Антропиковские модели его теперь из коробки поддерживают: https://platform.claude.com/docs/en/agents-and-tools/tool-use/programmatic-tool-calling