elevator-codex-gpt-5-3-codex.mp4
14.5 MB
Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex
Сегодня случилось редкое: Anthropic и OpenAI выкатили свои главные модели в один день. Claude Opus 4.6 и GPT-5.3-Codex - оба от 5 февраля почти подряд. Поэтому мой лифтовый бенчмарк возвращается. На видео протестил обе модели - и в веб-интерфейсе, и в Claude Code / Codex. По-моему, в этой задаче однозначный фаворит - Opus, но судите сами.
Коротко что в каждом релизе.
По ощущениям, модели стали как будто быстрее, но Opus дотошный прямо стал - перепроверяет по несколько раз из-за этого сам процесс дольше.
Disclamer: это шуточный тест, не настоящий бенчмарк, и конечно надо тестить на разных задачах, Claude и так был хорош во фронтенде, а новый Codex надо бы потестить как архитектора и ревьювера еще, так что кто потестил сам - расскажите ваши впечатления - что удалось потестить и какие впечатления?
Сегодня случилось редкое: Anthropic и OpenAI выкатили свои главные модели в один день. Claude Opus 4.6 и GPT-5.3-Codex - оба от 5 февраля почти подряд. Поэтому мой лифтовый бенчмарк возвращается. На видео протестил обе модели - и в веб-интерфейсе, и в Claude Code / Codex. По-моему, в этой задаче однозначный фаворит - Opus, но судите сами.
Коротко что в каждом релизе.
Claude Opus 4.6
- 1M токенов контекста (было 200k) - первый Opus с таким окном
- Agent Teams - несколько агентов параллельно на одной задаче
- Adaptive Thinking - сама решает когда думать глубже
- Claude в PowerPoint (превью)
- SOTA на агентном кодинге, бьет GPT-5.2 на 144 Elo
- Нашел 500 zero-day уязвимостей в open-source
- $5/$25 за 1M токенов
- блог-пост
GPT-5.3-Codex
- Первая модель, которая участвовала в собственном создании
- На 25% быстрее при меньшем расходе токенов
- Terminal-Bench: 77% (было 64%), OSWorld: 65% (было 38%, человек ~72%)
- Первая "High capability" для кибербезопасности + $10M на гранты
- Вышла за пределы кода: PRDs, презентации, аналитика
- Codex app для macOS - 500k загрузок за 3 дня
• блог-пост
Любопытно: ни один бенчмарк в анонсах напрямую не пересекается. Обе компании выбрали разные тесты, так что сравнить лоб в лоб по цифрам - нельзя.
По ощущениям, модели стали как будто быстрее, но Opus дотошный прямо стал - перепроверяет по несколько раз из-за этого сам процесс дольше.
Disclamer: это шуточный тест, не настоящий бенчмарк, и конечно надо тестить на разных задачах, Claude и так был хорош во фронтенде, а новый Codex надо бы потестить как архитектора и ревьювера еще, так что кто потестил сам - расскажите ваши впечатления - что удалось потестить и какие впечатления?
6🔥39❤9👏5👍3
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic выпустила Claude Opus 4.6 - 1M токенов контекста в бете, 68.8% на ARC-AGI 2. Модель заметно сильнее в кодинге и агентных задачах. Цена на уровне Opus 4.5.
- OpenAI выпустила GPT-5.3-Codex - 77.3% на Terminal Bench, вдвое экономнее по токенам и на 40% быстрее предыдущей версии. Мой пост про оба релиза.
- Qwen выпустили Qwen3-Coder-Next - 80B параметров при 3B активных (MoE), 256K контекст (до 1M), 70.6% на SWE-Bench. Опенсорс-модель специально для кодинг-агентов с инструментами и восстановлением после ошибок.
- Kling 3.0 - видеосинтез с нативным аудио, мультишот 3-15 сек, добавили поддержку речи, диалогов и сохранение облика персонажей. По качеству на уровне Sora 2 и Veo 3.1.
- Apple интегрировала Claude Agent SDK в Xcode - по сути Claude Code прямо внутри Xcode.
- OpenAI платформу OpenAI Frontier для enterprise-агентов с контекстом бизнеса, средой выполнения и обучением на ходу, а Anthropic запустили Cowork Plugins для enterprise-scale агентов в Claude.
- VS Code запустил Agent Sessions - единое рабочее пространство для локальных, фоновых и облачных агентов. Поддержка Claude и Codex, параллельные субагенты, встроенный браузер.
- OpenAI выкатила Codex App на macOS - параллельные агенты, автоматизации по расписанию и skills, а ChatGPT получил полную интеграцию MCP Apps.
- Claude Code добавили команду
- SpaceX поглотила xAI, создав самую дорогую частную компанию в мире. xAI оценили в $125 млрд, SpaceX в $1 трлн.
- Сделка NVIDIA и OpenAI на $100 млрд трещит по швам. За 5 месяцев контракт так и не подписан. При этом OpenAI остро нуждается в кэше.
- Anthropic vs OpenAI: рекламная война. Anthropic показала рекламу на Super Bowl, высмеям планы OpenAI по рекламе в ChatGPT, и пообещала, что Claude останется без рекламы. Altman в ответ написал целое эссе, с критикой Антропик и что у ChatGPT намного больше пользователей.
- Cerebras привлек $1B в Series H при оценке $23B (лид Tiger Global). 5 месяцев назад оценка была $8B - рост почти в 3 раза. Плюс партнерство с OpenAI на $10B.
- OpenAI подключила GPT-5 к автономной лаборатории Ginkgo Bioworks и снизила стоимость синтеза белков на 40%. AI, который реально двигает науку.
- Вышла Voxtral Mini 4B Realtime от Mistral - речевая модель на 13 языков с латенси от 240ms. Открытые веса, Apache 2.0.
- Figma запустила Vectorize - AI-конвертация любых картинок в вектор.
- ACE-Step 1.5 - мошная модель для локальной генерации песен, MIT лицензия, всего 4GB VRAM.
- Falcon-H1-Tiny от TII - микромодели меньше 100M параметров для edge-устройств с 94% точностью tool-calling.
- GLM-OCR - SOTA в распознавании документов при всего 0.9B параметрах. Формулы, таблицы, извлечение информации.
- LingBot-World - опенсорс-аналог Genie3. Генерит интерактивные видео-миры в реалтайме (720p, 16fps). Под капотом MoE 28B на базе Wan 2.2.
- Granola выпустила MCP-интеграцию, контекст из встреч теперь доступен в любом AI-приложении.
- AI-паника на рынке софта: страхи инвесторов, что AI обесценит софтверные компании, перекинулись на частные фонды. Blue Owl, TPG, Ares, KKR просели двузначно, iShares Software ETF -20% с начала года.
- Вышел AI Safety Report 2026 - огромный и качественный отчет о рисках и возможностях ИИ от 100+ ученых из 30 стран.
- YC опубликовал Spring 2026 Requests for Startups - 10 направлений: AI-native workflows, stablecoins, модернизация промышленности и госсектора, "Cursor for PMs", AI-native агентства.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic выпустила Claude Opus 4.6 - 1M токенов контекста в бете, 68.8% на ARC-AGI 2. Модель заметно сильнее в кодинге и агентных задачах. Цена на уровне Opus 4.5.
- OpenAI выпустила GPT-5.3-Codex - 77.3% на Terminal Bench, вдвое экономнее по токенам и на 40% быстрее предыдущей версии. Мой пост про оба релиза.
- Qwen выпустили Qwen3-Coder-Next - 80B параметров при 3B активных (MoE), 256K контекст (до 1M), 70.6% на SWE-Bench. Опенсорс-модель специально для кодинг-агентов с инструментами и восстановлением после ошибок.
- Kling 3.0 - видеосинтез с нативным аудио, мультишот 3-15 сек, добавили поддержку речи, диалогов и сохранение облика персонажей. По качеству на уровне Sora 2 и Veo 3.1.
- Apple интегрировала Claude Agent SDK в Xcode - по сути Claude Code прямо внутри Xcode.
- OpenAI платформу OpenAI Frontier для enterprise-агентов с контекстом бизнеса, средой выполнения и обучением на ходу, а Anthropic запустили Cowork Plugins для enterprise-scale агентов в Claude.
- VS Code запустил Agent Sessions - единое рабочее пространство для локальных, фоновых и облачных агентов. Поддержка Claude и Codex, параллельные субагенты, встроенный браузер.
- OpenAI выкатила Codex App на macOS - параллельные агенты, автоматизации по расписанию и skills, а ChatGPT получил полную интеграцию MCP Apps.
- Claude Code добавили команду
/insights - анализирует все ваши сессии и выдает выводы и советы, а еще Agent Teams позволяет координировать несколько параллельных сессий Claude Code, работающих как команда. Ну, и можно упомянуть новые советы Бориса (создателя CC).- SpaceX поглотила xAI, создав самую дорогую частную компанию в мире. xAI оценили в $125 млрд, SpaceX в $1 трлн.
- Сделка NVIDIA и OpenAI на $100 млрд трещит по швам. За 5 месяцев контракт так и не подписан. При этом OpenAI остро нуждается в кэше.
- Anthropic vs OpenAI: рекламная война. Anthropic показала рекламу на Super Bowl, высмеям планы OpenAI по рекламе в ChatGPT, и пообещала, что Claude останется без рекламы. Altman в ответ написал целое эссе, с критикой Антропик и что у ChatGPT намного больше пользователей.
- Cerebras привлек $1B в Series H при оценке $23B (лид Tiger Global). 5 месяцев назад оценка была $8B - рост почти в 3 раза. Плюс партнерство с OpenAI на $10B.
- OpenAI подключила GPT-5 к автономной лаборатории Ginkgo Bioworks и снизила стоимость синтеза белков на 40%. AI, который реально двигает науку.
- Вышла Voxtral Mini 4B Realtime от Mistral - речевая модель на 13 языков с латенси от 240ms. Открытые веса, Apache 2.0.
- Figma запустила Vectorize - AI-конвертация любых картинок в вектор.
- ACE-Step 1.5 - мошная модель для локальной генерации песен, MIT лицензия, всего 4GB VRAM.
- Falcon-H1-Tiny от TII - микромодели меньше 100M параметров для edge-устройств с 94% точностью tool-calling.
- GLM-OCR - SOTA в распознавании документов при всего 0.9B параметрах. Формулы, таблицы, извлечение информации.
- LingBot-World - опенсорс-аналог Genie3. Генерит интерактивные видео-миры в реалтайме (720p, 16fps). Под капотом MoE 28B на базе Wan 2.2.
- Granola выпустила MCP-интеграцию, контекст из встреч теперь доступен в любом AI-приложении.
- AI-паника на рынке софта: страхи инвесторов, что AI обесценит софтверные компании, перекинулись на частные фонды. Blue Owl, TPG, Ares, KKR просели двузначно, iShares Software ETF -20% с начала года.
- Вышел AI Safety Report 2026 - огромный и качественный отчет о рисках и возможностях ИИ от 100+ ученых из 30 стран.
- YC опубликовал Spring 2026 Requests for Startups - 10 направлений: AI-native workflows, stablecoins, модернизация промышленности и госсектора, "Cursor for PMs", AI-native агентства.
55👍34🔥16❤7👏6
Forwarded from Поляков считает: AI, код и кейсы
Поляков считает, что он победил управляющую компанию
Разогнался с навыками для OpenClaw и заметил неэффективность: чтобы курьер Вкусвилл попал к нам домой, надо зайти в приложение УК и заказать пропуск. Иначе — пропущеные звонки, недоставленные заказы и нервы.
Наш Домпульт ужасен: 5 экранов ради одного пропуска. А гостевой паркинг — вообще боль: слоты по 30 минут, максимум 3 за раз, по мере освобождения можно ещё 3. Без пропуска — предупреждение, потом бан.
🔍 Charles Proxy: приложение для отладки трафика
Проблема: у приложения УК нет публичного API. Но любое приложение общается с сервером по HTTP. Я посмотрел сетевой трафик своего аккаунта на своём устройстве, чтобы понять, что делает приложение.
Charles Proxy — прокси для мониторинга сетевых запросов. Настроил отладочный прокси — и стало видно, какие запросы и параметры уходят при обычных действиях.
Нюанс: не уверен, что утилита работает с Андроид.
⚙️ Что автоматизировал
🔸 Парсинг новостей УК: закрытие проездов, ремонт, отключения
🔸 Заказ пропусков для курьеров и гостей
🔸 Бронирование парковочных мест
🔸 Связка: заказ во ВкусВилл → пропуск для курьера
Всё это доступно мне в приложении — бот просто повторяет те же действия, но без лишних экранов.
Последний пункт — главный. Бот собирает корзину, проверяет наличие и сам заказывает пропуск на время доставки.
🤦 Про вчерашний Puppeteer
Вчера городил безголовый Chrome с авторизацией для проверки наличия товаров ВкусВилл. Но можно было бы и по другому. Хотя и сложнее в разы.
📌 Итого
Бот теперь умеет: искать продукты → проверять наличие → собирать корзину → заказывать пропуск курьеру. Полный цикл от «хочу форель» до «курьер у двери».
Расскажите, уже пробовали бытовую автоматизацию через ИИ?
----
Поляков считает — AI, код и кейсы
Разогнался с навыками для OpenClaw и заметил неэффективность: чтобы курьер Вкусвилл попал к нам домой, надо зайти в приложение УК и заказать пропуск. Иначе — пропущеные звонки, недоставленные заказы и нервы.
Наш Домпульт ужасен: 5 экранов ради одного пропуска. А гостевой паркинг — вообще боль: слоты по 30 минут, максимум 3 за раз, по мере освобождения можно ещё 3. Без пропуска — предупреждение, потом бан.
🔍 Charles Proxy: приложение для отладки трафика
Проблема: у приложения УК нет публичного API. Но любое приложение общается с сервером по HTTP. Я посмотрел сетевой трафик своего аккаунта на своём устройстве, чтобы понять, что делает приложение.
Charles Proxy — прокси для мониторинга сетевых запросов. Настроил отладочный прокси — и стало видно, какие запросы и параметры уходят при обычных действиях.
💡 Делаешь действие в приложении — и становится понятно, какие сетевые вызовы за ним стоят.
Нюанс: не уверен, что утилита работает с Андроид.
⚙️ Что автоматизировал
🔸 Парсинг новостей УК: закрытие проездов, ремонт, отключения
🔸 Заказ пропусков для курьеров и гостей
🔸 Бронирование парковочных мест
🔸 Связка: заказ во ВкусВилл → пропуск для курьера
Всё это доступно мне в приложении — бот просто повторяет те же действия, но без лишних экранов.
Последний пункт — главный. Бот собирает корзину, проверяет наличие и сам заказывает пропуск на время доставки.
🤦 Про вчерашний Puppeteer
Вчера городил безголовый Chrome с авторизацией для проверки наличия товаров ВкусВилл. Но можно было бы и по другому. Хотя и сложнее в разы.
📌 Итого
Бот теперь умеет: искать продукты → проверять наличие → собирать корзину → заказывать пропуск курьеру. Полный цикл от «хочу форель» до «курьер у двери».
Расскажите, уже пробовали бытовую автоматизацию через ИИ?
----
Поляков считает — AI, код и кейсы
❤31🔥22👍13😁2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
Slidev - пожалуй лучший способ создавать презентации в эпоху AI. Markdown-first, с мощным тулингом и экспортом в PDF и PowerPoint. Делюсь своим опытом.
Инструментов для презентаций сейчас вагон - от классических PowerPoint и Google Slides до Figma Slides, Gamma, и в каждом втором туле от NodebookLM до Perplexity. Но для своих выступлений, перепробовав кучу вариантов, я как file-first адепт искал инструмент на базе markdown. Сначала это был Marp - хорош для минимальных слайдов, но ограничен. В Slidev я нашел все что не хватало.
Почему markdown для презентаций - это мощно
Все крутится вокруг идеи что слайды - это текстовый файл. Это значит:
- Хирургическая точность - find & replace, regex, массовые правки за секунды. В одной из моих през было около 50 логотипов технологий - конечно проще было это сделать кодом чем тягать в визуальном редакторе.
- Рефакторинг и рестайлинг - поменял тему в одной строчке frontmatter и все слайды перестроились. Поменял шрифт - тоже одна строчка.
- Git-friendly - нормальные диффы, версионирование, бранчи. Презентация лежит рядом с кодом проекта.
- Hackable - это веб-приложение под капотом (Vue 3 + Vite), если чего-то не хватает, можно встроить что угодно: npm-пакеты, API-запросы, интерактивные компоненты. Одна только возможность использовать какие-нибудь Lucide-icons чего стоит.
- Это просто быстрее - ты тратишь меньше времени на программы презентаций и больше на сам контент.
Что доступно из коробки
- Presenter View - заметки, таймер, preview следующего слайда, remote control с телефона (работает как веб-приложение)
- Экспорт в PDF, PPTX, PNG или деплой как статический сайт.
- Готовые layouts, темы через npm, UnoCSS для стилизации
- Mermaid-диаграммы, LaTeX-формулы
- Подсветка кода с пошаговым выделением строк (`{2|3-5|7}`)
- Magic Move - анимированная трансформация одного блока кода в другой
- Monaco Editor - live coding с автокомплитом прямо в слайде
- Рисование на слайдах во время презентации
- VS Code расширение - preview, навигация по слайдам, drag-and-drop
- И многое другое, но в минимальной комплектации это все может быть просто один файл
AI-ready
Есть Agent Skill который ставится одной командой
Slidev позиционируется как "presentation slides for developers". Но имхо с AI-агентами это доступно примерно всем - тем более с таким удобным тулингом. Будете делать презентации - попробуйте!
🔥➕🔁 @nobilix
Инструментов для презентаций сейчас вагон - от классических PowerPoint и Google Slides до Figma Slides, Gamma, и в каждом втором туле от NodebookLM до Perplexity. Но для своих выступлений, перепробовав кучу вариантов, я как file-first адепт искал инструмент на базе markdown. Сначала это был Marp - хорош для минимальных слайдов, но ограничен. В Slidev я нашел все что не хватало.
Почему markdown для презентаций - это мощно
Все крутится вокруг идеи что слайды - это текстовый файл. Это значит:
- Хирургическая точность - find & replace, regex, массовые правки за секунды. В одной из моих през было около 50 логотипов технологий - конечно проще было это сделать кодом чем тягать в визуальном редакторе.
- Рефакторинг и рестайлинг - поменял тему в одной строчке frontmatter и все слайды перестроились. Поменял шрифт - тоже одна строчка.
- Git-friendly - нормальные диффы, версионирование, бранчи. Презентация лежит рядом с кодом проекта.
- Hackable - это веб-приложение под капотом (Vue 3 + Vite), если чего-то не хватает, можно встроить что угодно: npm-пакеты, API-запросы, интерактивные компоненты. Одна только возможность использовать какие-нибудь Lucide-icons чего стоит.
- Это просто быстрее - ты тратишь меньше времени на программы презентаций и больше на сам контент.
Что доступно из коробки
- Presenter View - заметки, таймер, preview следующего слайда, remote control с телефона (работает как веб-приложение)
- Экспорт в PDF, PPTX, PNG или деплой как статический сайт.
- Готовые layouts, темы через npm, UnoCSS для стилизации
- Mermaid-диаграммы, LaTeX-формулы
- Подсветка кода с пошаговым выделением строк (`{2|3-5|7}`)
- Magic Move - анимированная трансформация одного блока кода в другой
- Monaco Editor - live coding с автокомплитом прямо в слайде
- Рисование на слайдах во время презентации
- VS Code расширение - preview, навигация по слайдам, drag-and-drop
- И многое другое, но в минимальной комплектации это все может быть просто один файл
slides.md и одна команда npx slidevAI-ready
Есть Agent Skill который ставится одной командой
npx skills add slidevjs/slidev (хех, сначала у меня был свой, но недавно выкатили официальный). Плюс презентацию можно разбить на отдельные .md файлы - супер-удобно с точки зрения контекст инжиниринга.Slidev позиционируется как "presentation slides for developers". Но имхо с AI-агентами это доступно примерно всем - тем более с таким удобным тулингом. Будете делать презентации - попробуйте!
🔥➕🔁 @nobilix
10🔥73👍24❤10👏4💯3😁1
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Bytedance хайпят с Seedance 2.0 - новой SOTA видео-моделью с мощно подросшим качеством генерации и нативным аудио.
- OpenAI представила GPT-5.3-Codex-Spark - компактную модель для кодинга в реальном времени, работающую на чипах Cerebras (>1000 t/s)
- Google выпустили Gemini 3 Deep Think - обновленный ризонинг мод, который выбил SOTA на нескольких бенчмарках, включая ARC-AGI-2 (84.6%). Доступна в Ultra плане.
- Zhipu AI выпустила GLM-5 - открытую модель под лицензией MIT - где-то между лучшими открытыми моделями и закрытыми фронтирными. Вместе с моделью представили свою агентный UI Z-code.
- Google DeepMind представили Aletheia - ИИ-агента для математических доказательств, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд).
- MiniMax выпустили M2.5 - модель чуть слабее GLM-5, но заметно дешевле: $0.3/$1.2 за миллион токенов против $1/$3.2 у GLM-5.
- Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast - версия в 2.5 раза быстрее обычной, но обойдется в 6 раз дороже обычной модели.
- OpenAI Responses API получили большой апдейт: server-side compaction, контейнеры с интернетом + Skills. Плюс выкатили статью с 10 советами по запуску многочасовых агентных воркфлоу.
- Anthropic привлекли $30 млрд на оценке $380 млрд - крупнейший раунд среди AI-стартапов.
- Cursor выпустили новую модель Composer 1.5. Модель с ризонингом, обучена само-суммаризации для работы с длинными диалогами.
- Claude Cowork теперь на Windows.
- Nebius (от бывших фаундеров Яндекса) покупают Tavily - популярный поиск для AI-агентов.
- Бывший CEO GitHub Томас Домке запустил Entire - "Github для ИИ-агентов". Платформа автоматически сохраняет весь контекст генерации и передает ИИ для дальнейшей работы.
- Stripe используют minions - агентов, которые могут one-shot делать фичи end-to-end.
- Warp запустили Oz - платформу для оркестрации агентов в облаке. Запускай сотни агентов из терминала, браузера, API или телефона.
- Google реализовали архитектуру Recursive Language Models (RLM) от MIT на своем Agent Development Kit.
- Alibaba выпустили Qwen-Image-2.0 - новый ИИ-фотошоп. Поддерживает качество до 2К, создает фотореалистичные картинки, слайды презентаций, людей и природу с высокой детализацией.
- Claude in PowerPoint - ассистент теперь работает внутри презентаций, редактируя слайды в реальном времени и сохраняя корпоративный стиль.
- Chrome 146 включает ранний превью WebMCP, доступный через флаг - позволяет AI-агентам делать запросы к сервисам без браузинга.
- Сэм Альтман сообщил сотрудникам, что ChatGPT вернулся к росту более 10% в месяц, а Codex вырос на 50% за неделю.
- Вокруг OpenClaw много шума, поэтому кратко любопытное: webclaw.dev - веб клиент, aight.cool - iOS app, драма с агентным PR в гитхабе, интервью фаундера с Lex Fridman, разбор с нуля на питоне.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Bytedance хайпят с Seedance 2.0 - новой SOTA видео-моделью с мощно подросшим качеством генерации и нативным аудио.
- OpenAI представила GPT-5.3-Codex-Spark - компактную модель для кодинга в реальном времени, работающую на чипах Cerebras (>1000 t/s)
- Google выпустили Gemini 3 Deep Think - обновленный ризонинг мод, который выбил SOTA на нескольких бенчмарках, включая ARC-AGI-2 (84.6%). Доступна в Ultra плане.
- Zhipu AI выпустила GLM-5 - открытую модель под лицензией MIT - где-то между лучшими открытыми моделями и закрытыми фронтирными. Вместе с моделью представили свою агентный UI Z-code.
- Google DeepMind представили Aletheia - ИИ-агента для математических доказательств, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд).
- MiniMax выпустили M2.5 - модель чуть слабее GLM-5, но заметно дешевле: $0.3/$1.2 за миллион токенов против $1/$3.2 у GLM-5.
- Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast - версия в 2.5 раза быстрее обычной, но обойдется в 6 раз дороже обычной модели.
- OpenAI Responses API получили большой апдейт: server-side compaction, контейнеры с интернетом + Skills. Плюс выкатили статью с 10 советами по запуску многочасовых агентных воркфлоу.
- Anthropic привлекли $30 млрд на оценке $380 млрд - крупнейший раунд среди AI-стартапов.
- Cursor выпустили новую модель Composer 1.5. Модель с ризонингом, обучена само-суммаризации для работы с длинными диалогами.
- Claude Cowork теперь на Windows.
- Nebius (от бывших фаундеров Яндекса) покупают Tavily - популярный поиск для AI-агентов.
- Бывший CEO GitHub Томас Домке запустил Entire - "Github для ИИ-агентов". Платформа автоматически сохраняет весь контекст генерации и передает ИИ для дальнейшей работы.
- Stripe используют minions - агентов, которые могут one-shot делать фичи end-to-end.
- Warp запустили Oz - платформу для оркестрации агентов в облаке. Запускай сотни агентов из терминала, браузера, API или телефона.
- Google реализовали архитектуру Recursive Language Models (RLM) от MIT на своем Agent Development Kit.
- Alibaba выпустили Qwen-Image-2.0 - новый ИИ-фотошоп. Поддерживает качество до 2К, создает фотореалистичные картинки, слайды презентаций, людей и природу с высокой детализацией.
- Claude in PowerPoint - ассистент теперь работает внутри презентаций, редактируя слайды в реальном времени и сохраняя корпоративный стиль.
- Chrome 146 включает ранний превью WebMCP, доступный через флаг - позволяет AI-агентам делать запросы к сервисам без браузинга.
- Сэм Альтман сообщил сотрудникам, что ChatGPT вернулся к росту более 10% в месяц, а Codex вырос на 50% за неделю.
- Вокруг OpenClaw много шума, поэтому кратко любопытное: webclaw.dev - веб клиент, aight.cool - iOS app, драма с агентным PR в гитхабе, интервью фаундера с Lex Fridman, разбор с нуля на питоне.
3🔥54❤19👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Самые полезные вещи про AI я узнаю из разговоров с теми, кто уже внедрил и набил шишки.
19–20 февраля как раз такой формат: ROИИ 2026. Конфа, где спикеры делятся опытом внедрения: ROI, P&L, unit-экономика, стоимость ошибок, практические советы по внедрению.
Выступаю и слушаю. Спикеры: фаундеры, тех-лиды, CPO, CTO и Head of AI.
• первый день "Продукт и стратегия" (я выступаю в этот день)
• второй день про "AI-Маркетинг и Рост"
Участие бесплатно при подписке на спикеров (на многих вы и так подписаны).
• Полная программа на сайте
• Добавить в календарик
• Shortcut: регистрация в боте по ссылке
19–20 февраля как раз такой формат: ROИИ 2026. Конфа, где спикеры делятся опытом внедрения: ROI, P&L, unit-экономика, стоимость ошибок, практические советы по внедрению.
Выступаю и слушаю. Спикеры: фаундеры, тех-лиды, CPO, CTO и Head of AI.
• первый день "Продукт и стратегия" (я выступаю в этот день)
• второй день про "AI-Маркетинг и Рост"
Участие бесплатно при подписке на спикеров (на многих вы и так подписаны).
• Полная программа на сайте
• Добавить в календарик
• Shortcut: регистрация в боте по ссылке
2🔥19❤7❤🔥5👍4
Cloudflare запустили Markdown for Agents - и тут есть что обсудить.
Помните мой разбор LLMs.txt? Тогда я сделал рисерч и пришел к выводу, что идея скорее мертворожденная: 0.3% адаптация среди топ-100к сайтов, ни один крупный провайдер официально не поддерживает. Собственно, так и вышло: cейчас почти никто не делает LLMs.txt.
А вот тут совсем недавно Cloudflare зашли с другой стороны: релизнув Markdown for agents - когда AI-агент отправляет запрос с заголовком
Кстати, Claude Code и OpenCode уже отправляют
Контекст шире, чем кажется. Cloudflare за полтора года развернулись на 180 градусов. Июль 2024 - дали кнопку "блокировать AI-краулеров одним кликом". Июль 2025 - все новые домены блокируют AI по умолчанию, 416 миллиардов заблокированных запросов. И вот февраль 2026 - запускают Markdown for Agents и приглашают тех же агентов обратно.
Девелоперское комьюнити принимает с энтузиазмом, предложили воркэраунд для бесплатных планов, появились Spatie-пакет для Laravel, плагин для Caddy, WordPress-плагин от создателя Yoast.
SEO-шникам же идея не очень зашла. Джон Мюллер из Google прямо назвал идею "stupid". Некоторые предупреждают о "shadow web" - сайты могут вставлять скрытые инструкции в markdown-версию.
Меня лично бесит, когда Claude Code не может получить ответ с какого-то сайта, потому что тот решил блокировать AI-агентов. Особенно этим грешит OpenAI. Я понимаю владельцев сайтов - никому не хочется оплачивать трафик ботов, которые выкачивают контент. Но универсального решения пока нет, и от этого страдают все.
Идея Cloudflare мне нравится больше, чем LLMs.txt да и Cloudflare настолько большой провайдер (~20% веба), что может задать тренд, если эксперимент получится удачным. Если Vercel и Fastly, Netlify и др. подхватят - получим де-факто стандарт. Но проблема, что этот же заголовок становится маркером "я AI-агент", что упрощает и блокировку.
А вы как думаете - это шаг в правильном направлении или наоборот нужно оставить веб таким, каким его видят люди и не пытаться его подогнать под требования агентов?
Помните мой разбор LLMs.txt? Тогда я сделал рисерч и пришел к выводу, что идея скорее мертворожденная: 0.3% адаптация среди топ-100к сайтов, ни один крупный провайдер официально не поддерживает. Собственно, так и вышло: cейчас почти никто не делает LLMs.txt.
А вот тут совсем недавно Cloudflare зашли с другой стороны: релизнув Markdown for agents - когда AI-агент отправляет запрос с заголовком
Accept: text/markdown, Cloudflare на лету конвертирует HTML в чистый MD. Плюс в ответе будет приходить заголовок x-markdown-tokens с оценкой токенов. Агент может заранее понять, влезет ли страница в контекстное окно, до того как ее обработает. По сути это context window management на уровне HTTP.Кстати, Claude Code и OpenCode уже отправляют
Accept: text/markdown - они буквально просили об этом, просто никто не слушал.Контекст шире, чем кажется. Cloudflare за полтора года развернулись на 180 градусов. Июль 2024 - дали кнопку "блокировать AI-краулеров одним кликом". Июль 2025 - все новые домены блокируют AI по умолчанию, 416 миллиардов заблокированных запросов. И вот февраль 2026 - запускают Markdown for Agents и приглашают тех же агентов обратно.
Девелоперское комьюнити принимает с энтузиазмом, предложили воркэраунд для бесплатных планов, появились Spatie-пакет для Laravel, плагин для Caddy, WordPress-плагин от создателя Yoast.
SEO-шникам же идея не очень зашла. Джон Мюллер из Google прямо назвал идею "stupid". Некоторые предупреждают о "shadow web" - сайты могут вставлять скрытые инструкции в markdown-версию.
Меня лично бесит, когда Claude Code не может получить ответ с какого-то сайта, потому что тот решил блокировать AI-агентов. Особенно этим грешит OpenAI. Я понимаю владельцев сайтов - никому не хочется оплачивать трафик ботов, которые выкачивают контент. Но универсального решения пока нет, и от этого страдают все.
Идея Cloudflare мне нравится больше, чем LLMs.txt да и Cloudflare настолько большой провайдер (~20% веба), что может задать тренд, если эксперимент получится удачным. Если Vercel и Fastly, Netlify и др. подхватят - получим де-факто стандарт. Но проблема, что этот же заголовок становится маркером "я AI-агент", что упрощает и блокировку.
А вы как думаете - это шаг в правильном направлении или наоборот нужно оставить веб таким, каким его видят люди и не пытаться его подогнать под требования агентов?
6🔥47❤19👍8👏4
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Google выпустила Gemini 3.1 Pro - серьезный скачок по бенчам, трехуровневый thinking, контекст 1M токенов.
- Anthropic выпустила Claude Sonnet 4.6 - апгрейд кодинга, computer use и long-context reasoning. На 40% дешевле Opus.
- Alibaba выпустила Qwen 3.5 - MoE на 397B параметров. 201 язык, Apache 2.0. По бенчам на уровне фронтирных моделей.
- xAI выпустила Grok 4.20 в бете - мультиагентная архитектура из 4 специализированных агентов, работающих параллельно.
- OpenAI поглотила OpenClaw. Создатель Питер Штайнбергер возглавит направление personal agents. Проект остается опенсорсным, переезжает в независимый фонд.
- OpenAI привлекает рекордный раунд ~$100B при оценке ~$830-850B. Крупнейшая сделка в истории частного финансирования. Среди инвесторов SoftBank, Nvidia, Amazon, Microsoft.
- Anthropic выпустила Claude Code Security - инструмент с multi-stage self-verification. Нашли 500+ уязвимостей в опенсорс-проектах, некоторые существовали десятилетиями. После анонса акции cybersecurity-компаний просели (JFrog -24.6%).
- Пентагон использовал Claude через Palantir для планирования операции в Венесуэле.
- Seedance 2.0 от ByteDance вызвал крупнейший copyright-скандал в AI-видео. Disney, Paramount, Netflix, Warner Bros потребовали прекратить нарушения. ByteDance частично откатились и пообещали safeguards.
- Figma выпустила интеграцию с Claude Code ("Code to Canvas") - можно перенести работающий UI из Claude Code в редактируемые Figma-слои через MCP. Работает в обе стороны.
- Anthropic обновила политику использования - подписку Claude теперь нельзя использовать через сторонние инструменты (Cline, Roo Code, OpenClaw). Начались баны аккаунтов злоупотребляющих этим, что вызвало негативную реакцию сообщества.
- OpenAI тихо обновила миссию, убрав слова про безопасность и отсутствие финансового мотива. Было: "Build AI that safely benefits humanity, unconstrained by need to generate financial return". Стало: "Ensure AGI benefits all of humanity".
- Google добавила в Gemini генерацию музыки через Lyria 3 - треки до 30 секунд из текста или изображений. SynthID маркировка.
- GitHub Agentic Workflows вышел в technical preview - автоматизация репозиториев через AI-агентов в GitHub Actions. Описываешь желаемый результат в Markdown, агент выполняет.
- Cohere Labs выпустила TinyAya - открытые мультиязычные модели (3.35B) для 67+ языков. Работает на устройствах без интернета.
- Kitten TTS V0.8 - сверхмаленькая TTS-модель, самая маленькая версия всего 14M параметров (25 МБ), работает на CPU. Apache 2.0.
- World Labs (Fei-Fei Li) привлекла $1B при оценке ~$5B. Продукт MARBLE создает 3D-миры из текста, изображений и видео.
- Manus (Meta) запустил AI-агентов в Telegram - полноценный Manus с reasoning, tools и multi-step задачами прямо в мессенджере.
- Cursor запустил Marketplace - плагины для полного цикла разработки: skills, MCPs, субагенты, хуки.
- ARC-AGI-3 - новый интерактивный бенчмарк reasoning для AI-агентов. Полный запуск 25 марта.
- Anthropic опубликовала исследование работы людей с AI-агентами на основе миллионов взаимодействий в Claude Code. Много интересного.
- Исследование влияния LLM на книжный рынок: за 3 года количество новых книг утроилось, среднее качество снизилось. Но топ-1000 книг по категориям стали лучше - опытные авторы выиграли, новые проиграли.
- React вайб-кодерам на заметку: React Doctor - новый, но быстро набирающий популярность инструмент для диагностики React-кода.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Google выпустила Gemini 3.1 Pro - серьезный скачок по бенчам, трехуровневый thinking, контекст 1M токенов.
- Anthropic выпустила Claude Sonnet 4.6 - апгрейд кодинга, computer use и long-context reasoning. На 40% дешевле Opus.
- Alibaba выпустила Qwen 3.5 - MoE на 397B параметров. 201 язык, Apache 2.0. По бенчам на уровне фронтирных моделей.
- xAI выпустила Grok 4.20 в бете - мультиагентная архитектура из 4 специализированных агентов, работающих параллельно.
- OpenAI поглотила OpenClaw. Создатель Питер Штайнбергер возглавит направление personal agents. Проект остается опенсорсным, переезжает в независимый фонд.
- OpenAI привлекает рекордный раунд ~$100B при оценке ~$830-850B. Крупнейшая сделка в истории частного финансирования. Среди инвесторов SoftBank, Nvidia, Amazon, Microsoft.
- Anthropic выпустила Claude Code Security - инструмент с multi-stage self-verification. Нашли 500+ уязвимостей в опенсорс-проектах, некоторые существовали десятилетиями. После анонса акции cybersecurity-компаний просели (JFrog -24.6%).
- Пентагон использовал Claude через Palantir для планирования операции в Венесуэле.
- Seedance 2.0 от ByteDance вызвал крупнейший copyright-скандал в AI-видео. Disney, Paramount, Netflix, Warner Bros потребовали прекратить нарушения. ByteDance частично откатились и пообещали safeguards.
- Figma выпустила интеграцию с Claude Code ("Code to Canvas") - можно перенести работающий UI из Claude Code в редактируемые Figma-слои через MCP. Работает в обе стороны.
- Anthropic обновила политику использования - подписку Claude теперь нельзя использовать через сторонние инструменты (Cline, Roo Code, OpenClaw). Начались баны аккаунтов злоупотребляющих этим, что вызвало негативную реакцию сообщества.
- OpenAI тихо обновила миссию, убрав слова про безопасность и отсутствие финансового мотива. Было: "Build AI that safely benefits humanity, unconstrained by need to generate financial return". Стало: "Ensure AGI benefits all of humanity".
- Google добавила в Gemini генерацию музыки через Lyria 3 - треки до 30 секунд из текста или изображений. SynthID маркировка.
- GitHub Agentic Workflows вышел в technical preview - автоматизация репозиториев через AI-агентов в GitHub Actions. Описываешь желаемый результат в Markdown, агент выполняет.
- Cohere Labs выпустила TinyAya - открытые мультиязычные модели (3.35B) для 67+ языков. Работает на устройствах без интернета.
- Kitten TTS V0.8 - сверхмаленькая TTS-модель, самая маленькая версия всего 14M параметров (25 МБ), работает на CPU. Apache 2.0.
- World Labs (Fei-Fei Li) привлекла $1B при оценке ~$5B. Продукт MARBLE создает 3D-миры из текста, изображений и видео.
- Manus (Meta) запустил AI-агентов в Telegram - полноценный Manus с reasoning, tools и multi-step задачами прямо в мессенджере.
- Cursor запустил Marketplace - плагины для полного цикла разработки: skills, MCPs, субагенты, хуки.
- ARC-AGI-3 - новый интерактивный бенчмарк reasoning для AI-агентов. Полный запуск 25 марта.
- Anthropic опубликовала исследование работы людей с AI-агентами на основе миллионов взаимодействий в Claude Code. Много интересного.
- Исследование влияния LLM на книжный рынок: за 3 года количество новых книг утроилось, среднее качество снизилось. Но топ-1000 книг по категориям стали лучше - опытные авторы выиграли, новые проиграли.
- React вайб-кодерам на заметку: React Doctor - новый, но быстро набирающий популярность инструмент для диагностики React-кода.
6🔥46❤23👍10🦄3🤩2🥰1
Файл, который вы первым делом создаете для кодинг-агента, скорее всего делает его работу хуже. Разбираем исследование о том, помогают ли
Если вы работаете с Claude Code, Codex или Cursor - вы наверняка слышали: "первым делом настрой
Что проверяли и к чему пришли
Исследование "Do Context Files Help?" тестировало три сценария: агент с developer-written файлом, агент без файла вообще, и агент с LLM-generated файлом (тот самый
- Developer-written файлы: +4% к resolve rate. Небольшой прирост
- LLM-generated файлы: -3%. Хуже, чем без файла вообще
- Стоимость: +20% во всех сценариях с context files
Результат стабилен по моделям и промптам для генерации. Авторы рекомендуют отказаться от auto-generated файлов и включать только минимальные специфические требования.
Когда модель сама генерирует описание кодовой базы, она записывает то, что и так может найти за минуту через
Еще есть и концепция "instruction budget" - frontier модели удерживают в фокусе примерно 150-200 инструкций. Но это общий бюджет на все: system prompt инструмента, ваш context file и сама задача. Системный промпт Claude Code или Codex уже занимает значительную часть этого бюджета. Каждая лишняя строка в вашем файле конкурирует за внимание модели со всем остальным.
Мой подход
Я практически не использую
Часто использую условные правила вместо постоянных: "если делаешь X - используй Y" вместо "всегда используй Y". Это снижает noise для задач, где правило нерелевантно.
В больших проектах - вложенные файлы по папкам. Progressive disclosure: агент получает инструкции только для той части кодовой базы, в которой работает.
Еще из наблюдений
- Негативные инструкции ("не используй X") парадоксально могут увеличить вероятность использования X. Лучше укажите что использовать вместо.
- Периодически удаляйте файл целиком и смотрите, что реально сломается. С каждым апдейтом моделей - сломается все меньше
- Compiler/linter лучше текстовых инструкций - если можно выразить правило через ESLint rule, tsconfig strict, pre-commit hook - это надежнее
-
- Не скачивайте всякие чужие awesome-claude-md-for-best-developers-pack - там нет нюансов вашего проекта, зато есть накопленные рудименты, которые современные модели и так знают.
- Иногда вам просто не нужен файл контекста, на сегодня вполне ок кодить без него, особенно если проект новый.
Context files - не бесполезны. Но если их генерировать и не поддерживать - они точно скорее вредят, чем помогают. Минимальный, реактивный, актуальный файл с фокусом на нестандартных вещах - пока лучший подход.
А какой у вас опыт?
AGENTS.md и CLAUDE.md файлы кодинг-агентам решать задачи.Если вы работаете с Claude Code, Codex или Cursor - вы наверняка слышали: "первым делом настрой
CLAUDE.md AGENTS.md`" (обобщим как context files). Кто-то использует шаблоны из Github и постов, а кто-то запускает `/init`. Звучит как must-have. Но исследователи из ETH Zurich решили проверить, работает ли это на самом деле.Что проверяли и к чему пришли
Исследование "Do Context Files Help?" тестировало три сценария: агент с developer-written файлом, агент без файла вообще, и агент с LLM-generated файлом (тот самый
/init). Задачи - реальные GitHub issues из SWE-bench. Получили:- Developer-written файлы: +4% к resolve rate. Небольшой прирост
- LLM-generated файлы: -3%. Хуже, чем без файла вообще
- Стоимость: +20% во всех сценариях с context files
Результат стабилен по моделям и промптам для генерации. Авторы рекомендуют отказаться от auto-generated файлов и включать только минимальные специфические требования.
Когда модель сама генерирует описание кодовой базы, она записывает то, что и так может найти за минуту через
rg и чтение package.json. По сути это дублирование. Только теперь это дублирование сидит в контексте каждого запроса, занимает токены и создает bias.Еще есть и концепция "instruction budget" - frontier модели удерживают в фокусе примерно 150-200 инструкций. Но это общий бюджет на все: system prompt инструмента, ваш context file и сама задача. Системный промпт Claude Code или Codex уже занимает значительную часть этого бюджета. Каждая лишняя строка в вашем файле конкурирует за внимание модели со всем остальным.
Мой подход
Я практически не использую
/init. Вместо этого начинаю с ручного минималистичного CLAUDE.md. Там чаще бизнес-контекст (про что проект, текущее состояние, что важно учитывать на этой стадии), а не описание файловой структуры. Придерживаюсь реактивного подхода: если агент раз за разом делает одну и ту же ошибку - добавляю правило. Не делает - не добавляю. Периодически делаю ревизию.Часто использую условные правила вместо постоянных: "если делаешь X - используй Y" вместо "всегда используй Y". Это снижает noise для задач, где правило нерелевантно.
В больших проектах - вложенные файлы по папкам. Progressive disclosure: агент получает инструкции только для той части кодовой базы, в которой работает.
Еще из наблюдений
- Негативные инструкции ("не используй X") парадоксально могут увеличить вероятность использования X. Лучше укажите что использовать вместо.
- Периодически удаляйте файл целиком и смотрите, что реально сломается. С каждым апдейтом моделей - сломается все меньше
- Compiler/linter лучше текстовых инструкций - если можно выразить правило через ESLint rule, tsconfig strict, pre-commit hook - это надежнее
-
AGENTS.md ≠ CONTRIBUTING.md - если у вас уже есть CONTRIBUTING.md для людей, не дублируйте. Просто сошлитесь на него. То же касается README.md- Не скачивайте всякие чужие awesome-claude-md-for-best-developers-pack - там нет нюансов вашего проекта, зато есть накопленные рудименты, которые современные модели и так знают.
- Иногда вам просто не нужен файл контекста, на сегодня вполне ок кодить без него, особенно если проект новый.
Context files - не бесполезны. Но если их генерировать и не поддерживать - они точно скорее вредят, чем помогают. Минимальный, реактивный, актуальный файл с фокусом на нестандартных вещах - пока лучший подход.
А какой у вас опыт?
4🔥72👍40❤20
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic отказала Пентагону в использовании Claude для массовой слежки и автономного оружия. Пентагон разорвал контракт, Трамп потребовал отказаться от Claude во всех фед. агентствах. Anthropic оспорит решение в суде. Ирония: OpenAI тут же заключила аналогичный контракт с оборонкой, за что многие стали отменять подписки.
- Alibaba выпустила Qwen 3.5 Medium: Qwen3.5-35B-A3B, квант работает на одной RTX 3090 с 100+ т/с, по качеству сопоставима с Sonnet 4.5. Контекст 1M, Apache 2.0. SOTA для локальных запусков!
- Reve v1.5: большой апдейт генератора картинок, третье место на арене. Улучшена работа с текстом включая кириллицу.
- ByteDance выкатили Seedream 5.0 Lite для генерации и редактирования картинок. Урезанная из-за проблем с копирайтом, но все еще хороша.
- Google представила Nano Banana 2: качество Pro с быстродействием Flash, разрешение до 4K, веб-поиск изображений в реальном времени.
- Сразу три крупных релиза своихOpenClaw облачных автономных агентов: Perplexity запустил Computer. Cursor запустил Cloud Agents. Notion выпустил Custom Agents, Microsoft представила Copilot Tasks.
- Anthropic опубликовали скандальное расследование о промышленной дистилляции Claude китайцами: DeepSeek, Moonshot AI и MiniMax отправили ~16 млн запросов через ~24 000 фиктивных аккаунтов.
- ChatGPT начал показывать рекламу пользователям бесплатного и Go-плана в США. $60 CPM при минимальном бюджете $200 000.
- OpenAI завершила крупнейший раунд частного финансирования в истории: $110 млрд при оценке $840 млрд.
- Джек Дорси (создать Твиттера) уволил 4000 сотрудников Block (40% штата), прямо назвав причиной AI-инструменты. Акции +23%.
- Inception выпустил диффузионную LLM Mercury 2 со скоростью 1009 токенов/сек на Blackwell, в 3-5 раз быстрее фронтирных моделей. На AIME 91%, на уровне o3.
- Стартап Taalas сделал чип с весами Llama 3.1, "запеченными" прямо в кремнии: ~17k токенов/сек (это очень много!)
- OpenAI объявила, что SWE-bench Verified больше не актуален.
- Claude Code получил Auto Memory: через
- Android получит task automation на Pixel 10 и Galaxy S26: встроенный Gemini будет сам заказывать Uber, оформлять доставку и т.д.
- Claude Cowork получил плагины для финансов, HR, дизайна и инженерии, а также 12 новых коннекторов включая Google Drive, Gmail и DocuSign.
- Кризис в традиционном софте продолжается: CEO Workday заявил, что vibe coding не создаст ERP-систему, но акции упали на 40% с начала года. IBM потеряла 10% после запуска Anthropic AI-инструмента для COBOL.
- Невидимые Unicode-символы могут заставить AI-агентов выполнять скрытые инструкции. Без инструментов угрозы нет, но с доступом к tools модели декодируют и выполняют скрытые команды.
- Исследование (MATS Research, ETH Zurich, Anthropic): LLM-агенты деанонимизируют пользователей по публичным постам, выводя место проживания, профессию и интересы. Масштабируется на десятки тысяч кандидатов.
- Pew Research: 54% американских подростков используют ИИ для учебы (год назад 27%), каждый 10-й делает с ИИ всю домашку.
- Cloudflare переписали Next.js под Vite и Workers с помощью AI за $1100 и 7 дней. Проект Vinext решает реальную проблему деплоя Next.js.
- Claude Code получил Remote Control: запускаешь сессию на PC, управляешь с телефона или через веб. Активно пользуюсь, пока не хватает многого, но уже удобнее сторонних инструментов.
- Пара полезных новых OSS проектов на заметку: hermes-agent - что-то среднее между OpenClaw и CC, llmfit - чекает ваше железо и говорит, какие актуальные модели на нем запустятся.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic отказала Пентагону в использовании Claude для массовой слежки и автономного оружия. Пентагон разорвал контракт, Трамп потребовал отказаться от Claude во всех фед. агентствах. Anthropic оспорит решение в суде. Ирония: OpenAI тут же заключила аналогичный контракт с оборонкой, за что многие стали отменять подписки.
- Alibaba выпустила Qwen 3.5 Medium: Qwen3.5-35B-A3B, квант работает на одной RTX 3090 с 100+ т/с, по качеству сопоставима с Sonnet 4.5. Контекст 1M, Apache 2.0. SOTA для локальных запусков!
- Reve v1.5: большой апдейт генератора картинок, третье место на арене. Улучшена работа с текстом включая кириллицу.
- ByteDance выкатили Seedream 5.0 Lite для генерации и редактирования картинок. Урезанная из-за проблем с копирайтом, но все еще хороша.
- Google представила Nano Banana 2: качество Pro с быстродействием Flash, разрешение до 4K, веб-поиск изображений в реальном времени.
- Сразу три крупных релиза своих
- Anthropic опубликовали скандальное расследование о промышленной дистилляции Claude китайцами: DeepSeek, Moonshot AI и MiniMax отправили ~16 млн запросов через ~24 000 фиктивных аккаунтов.
- ChatGPT начал показывать рекламу пользователям бесплатного и Go-плана в США. $60 CPM при минимальном бюджете $200 000.
- OpenAI завершила крупнейший раунд частного финансирования в истории: $110 млрд при оценке $840 млрд.
- Джек Дорси (создать Твиттера) уволил 4000 сотрудников Block (40% штата), прямо назвав причиной AI-инструменты. Акции +23%.
- Inception выпустил диффузионную LLM Mercury 2 со скоростью 1009 токенов/сек на Blackwell, в 3-5 раз быстрее фронтирных моделей. На AIME 91%, на уровне o3.
- Стартап Taalas сделал чип с весами Llama 3.1, "запеченными" прямо в кремнии: ~17k токенов/сек (это очень много!)
- OpenAI объявила, что SWE-bench Verified больше не актуален.
- Claude Code получил Auto Memory: через
/memory агент сам ведет блокнот о проекте, данные сохраняются между сессиями.- Android получит task automation на Pixel 10 и Galaxy S26: встроенный Gemini будет сам заказывать Uber, оформлять доставку и т.д.
- Claude Cowork получил плагины для финансов, HR, дизайна и инженерии, а также 12 новых коннекторов включая Google Drive, Gmail и DocuSign.
- Кризис в традиционном софте продолжается: CEO Workday заявил, что vibe coding не создаст ERP-систему, но акции упали на 40% с начала года. IBM потеряла 10% после запуска Anthropic AI-инструмента для COBOL.
- Невидимые Unicode-символы могут заставить AI-агентов выполнять скрытые инструкции. Без инструментов угрозы нет, но с доступом к tools модели декодируют и выполняют скрытые команды.
- Исследование (MATS Research, ETH Zurich, Anthropic): LLM-агенты деанонимизируют пользователей по публичным постам, выводя место проживания, профессию и интересы. Масштабируется на десятки тысяч кандидатов.
- Pew Research: 54% американских подростков используют ИИ для учебы (год назад 27%), каждый 10-й делает с ИИ всю домашку.
- Cloudflare переписали Next.js под Vite и Workers с помощью AI за $1100 и 7 дней. Проект Vinext решает реальную проблему деплоя Next.js.
- Claude Code получил Remote Control: запускаешь сессию на PC, управляешь с телефона или через веб. Активно пользуюсь, пока не хватает многого, но уже удобнее сторонних инструментов.
- Пара полезных новых OSS проектов на заметку: hermes-agent - что-то среднее между OpenClaw и CC, llmfit - чекает ваше железо и говорит, какие актуальные модели на нем запустятся.
6🔥37❤24👍6🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
Про PDF OCR и Bounding Boxes: рентген для ваших документов - где это применяется и на что обращать внимание при выборе парсеров документов.
Сейчас работаю над проектом, где также требуется ручная проверка результатов AI. И в очередной раз провел раунд сравнения различных инструментов для парсинга PDF. Расскажу про bbox в целом и конкретные тулы, которые я использую.
Про bbox я уже упоминал - это координаты прямоугольника, который описывает положение элемента на странице. Формат обычно
Где это применяется
Очевидный юзкейс - Human Review (например на видео - реальный проект) или эдакий deeplink на точку в документе в RAG-системах. Но применение шире, например, я часто использую это в Evaluation пайплайнах - Bbox дает ground truth для автоматической оценки.
Уровни гранулярности
Не все bounding boxes одинаковые. Есть спектр:
- Блок - крупный кусок: весь текст до следующего заголовка
- Элемент - абзац, пункт списка, таблица, рисунок (обычно идеальный баланс гранулярности)
- Строка/слово/символ - максимальная гранулярность, на практике нужно редко
Два подхода к grounding
1. Inline grounding (eager) - каждый блок текста несет ссылку на свой источник. Обычно это anchor/референс (ID блока), реже и сами bbox прямо инлайном. В ответах LLM будет сразу референс на bbox.
1. Post-hoc grounding (lazy) - LLM/агент работает с чистым markdown без каких-либо референсов. Рядом лежит JSON с bbox и текстом каждого блока. Когда агент возвращает цитату и страницу - детерминированно ищем этот текст в JSON и достаем bbox. Агент вообще не знает про bbox, input чистый.
На практике post-hoc почти всегда лучше для контекст-инжиниринга. Бывают исключения, но rule of thumb - при прочих равных выбирайте его.
Мой опыт: Marker -> MinerU
До недавнего времени моим фаворитом был Marker + DataLab (их hosted API). Отличный инструмент, прекрасный playground для тестирования. Но в этом проекте столкнулся с проблемой гранулярности: когда вместо элемента списка - подсвечивается полстраницы.
Переехал на MinerU от OpenDataLab (китайские ребята). Ключевое отличие - MinerU отдает каждый
Альтернативы
Альтернатив море: Docling, LlamaParse, cloud APIs (Azure Document Intelligence, AWS Textract, Google Document AI), можно даже Gemini напрямую скармливать страницы и тд. Я тестил многое из этого.
Мой критерий простой: нужен инструмент, у которого есть и облако, и совместимая локальная версия. Облако - для скорости и чтобы мой комп не жужжал. Локальная версия - для sensitive данных.
Второй момент: зрелый пайплайн. Когда подключаешь Gemini или PaddleOCR напрямую, весь scaffolding (PDF->IMG, нормализация, reading order, иерархия элементов, обработка таблиц, SO) ложится на тебя.
Фронтенд: подсветка в PDF
Для визуализации bbox в браузере - PDF.js и React-обертки вокруг него: react-pdf-viewer с highlight plugin (как на видео).
Короче, если работаете с PDF - заранее продумайте grounding. Это относительно недорогая фича, которая дает кратный рост доверия пользователей к системе.
🔥➕🔁 @nobilix
Сейчас работаю над проектом, где также требуется ручная проверка результатов AI. И в очередной раз провел раунд сравнения различных инструментов для парсинга PDF. Расскажу про bbox в целом и конкретные тулы, которые я использую.
Про bbox я уже упоминал - это координаты прямоугольника, который описывает положение элемента на странице. Формат обычно
[x1, y1, x2, y2].Где это применяется
Очевидный юзкейс - Human Review (например на видео - реальный проект) или эдакий deeplink на точку в документе в RAG-системах. Но применение шире, например, я часто использую это в Evaluation пайплайнах - Bbox дает ground truth для автоматической оценки.
Уровни гранулярности
Не все bounding boxes одинаковые. Есть спектр:
- Блок - крупный кусок: весь текст до следующего заголовка
- Элемент - абзац, пункт списка, таблица, рисунок (обычно идеальный баланс гранулярности)
- Строка/слово/символ - максимальная гранулярность, на практике нужно редко
Два подхода к grounding
1. Inline grounding (eager) - каждый блок текста несет ссылку на свой источник. Обычно это anchor/референс (ID блока), реже и сами bbox прямо инлайном. В ответах LLM будет сразу референс на bbox.
1. Post-hoc grounding (lazy) - LLM/агент работает с чистым markdown без каких-либо референсов. Рядом лежит JSON с bbox и текстом каждого блока. Когда агент возвращает цитату и страницу - детерминированно ищем этот текст в JSON и достаем bbox. Агент вообще не знает про bbox, input чистый.
На практике post-hoc почти всегда лучше для контекст-инжиниринга. Бывают исключения, но rule of thumb - при прочих равных выбирайте его.
Мой опыт: Marker -> MinerU
До недавнего времени моим фаворитом был Marker + DataLab (их hosted API). Отличный инструмент, прекрасный playground для тестирования. Но в этом проекте столкнулся с проблемой гранулярности: когда вместо элемента списка - подсвечивается полстраницы.
Переехал на MinerU от OpenDataLab (китайские ребята). Ключевое отличие - MinerU отдает каждый
ListItem как отдельный элемент с собственным bbox. Именно то, что нужно для точного grounding, еще и поддерживается правильная иерархия. У MinerU есть облако с какими-то супер-щедрыми лимитами типа 10K файлов в день. И локально запускается, но учитывайте что это 3-10 секунд на страницу при больших объемах - медленно. И, кстати, они используют в том числе SOTA модель PaddleOCR, которую не зря нахваливал Глеб.Альтернативы
Альтернатив море: Docling, LlamaParse, cloud APIs (Azure Document Intelligence, AWS Textract, Google Document AI), можно даже Gemini напрямую скармливать страницы и тд. Я тестил многое из этого.
Мой критерий простой: нужен инструмент, у которого есть и облако, и совместимая локальная версия. Облако - для скорости и чтобы мой комп не жужжал. Локальная версия - для sensitive данных.
Второй момент: зрелый пайплайн. Когда подключаешь Gemini или PaddleOCR напрямую, весь scaffolding (PDF->IMG, нормализация, reading order, иерархия элементов, обработка таблиц, SO) ложится на тебя.
Фронтенд: подсветка в PDF
Для визуализации bbox в браузере - PDF.js и React-обертки вокруг него: react-pdf-viewer с highlight plugin (как на видео).
Короче, если работаете с PDF - заранее продумайте grounding. Это относительно недорогая фича, которая дает кратный рост доверия пользователей к системе.
🔥➕🔁 @nobilix
5🔥37👍22❤15👏1🤩1🤝1
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI выпустили GPT-5.4 и GPT-5.4 Pro: 1M токенов, нативный computer use, на 33% меньше ошибочных утверждений по сравнению с GPT-5.2. Еще выкатили и сделали дефолтной GPT-5.3 Instant.
- Apple представила MacBook Neo за $599 - первый Mac на чипе от iPhone (A18 Pro). Также вышли MacBook Pro на M5 Pro и M5 Max.
- Google выпустил Gemini 3.1 Flash-Lite - самую быструю и дешевую модель в линейке Gemini 3.
- На фоне конфликта с Пентагоном Claude вышел на 1 место в App Store + запустили программу поддержки опен-сорса и программу амбассадоров.
- Cursor запустил Automations - always-on фоновые агенты в облачных sandbox с памятью. Еще Cursor теперь доступен в JetBrains IDE через Agent Client Protocol.
- OpenAI выпустили Symphony - open-source оркестратор для агентов в таск-трекере (Linear). Опенсорс.
- Claude Code получил голосовой режим - push-to-talk через пробел, транскрипция бесплатная. Раскатывают постепенно.
- Google выпустил open-source CLI для всего Google Workspace (Drive, Gmail, Calendar, Sheets, Docs, Chat) + встроенный MCP-сервер для AI-агентов и 100+ Agent Skills.
- Microsoft выпустил Phi-4-reasoning-vision-15B - открытая компактная модель конкурирующая с моделями в разы крупнее.
- NotebookLM от Google выкатил Cinematic Video Overview - генерация анимированных документальных роликов из источников. Пока только для Ultra.
- Anthropic запустили Import Memory - перенос памяти из ChatGPT/Gemini в Claude через специальный промпт для экспорта.
- Шведское издание SVD выяснило, что записи с умных очков Meta Ray-Ban попадают к аннотаторам-людям в Кении, включая банковские данные и интимный контент. Meta судят за нарушение приватности.
- OpenAI уволили сотрудника за торговлю на Polymarket и Kalshi с использованием инсайдерской информации о датах релизов.
- Атака через prompt injection в заголовке GitHub issue скомпрометировала 4000 машин разработчиков. Cline интерпретировал вредоносный заголовок как инструкцию.
- AWS запустил AI-агентов для медиков за $100/мес - верификация пациентов, заполнение медкарт, планирование приемов.
- OpenAI запустили ChatGPT for Excel - Add-In, который строит и обновляет модели прямо в таблице по текстовому описанию, использует Computer Use фишки GPT-5.4.
- Codex Desktop от OpenAI вышел на Windows.
- Интересный новый проект: agentcard.sh - предоплаченные виртуальные Visa-карты для AI-агентов. MCP-совместимый.
- Классное исследование про то какие технологии выбирает Claude Code если явно не указывать стек.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI выпустили GPT-5.4 и GPT-5.4 Pro: 1M токенов, нативный computer use, на 33% меньше ошибочных утверждений по сравнению с GPT-5.2. Еще выкатили и сделали дефолтной GPT-5.3 Instant.
- Apple представила MacBook Neo за $599 - первый Mac на чипе от iPhone (A18 Pro). Также вышли MacBook Pro на M5 Pro и M5 Max.
- Google выпустил Gemini 3.1 Flash-Lite - самую быструю и дешевую модель в линейке Gemini 3.
- На фоне конфликта с Пентагоном Claude вышел на 1 место в App Store + запустили программу поддержки опен-сорса и программу амбассадоров.
- Cursor запустил Automations - always-on фоновые агенты в облачных sandbox с памятью. Еще Cursor теперь доступен в JetBrains IDE через Agent Client Protocol.
- OpenAI выпустили Symphony - open-source оркестратор для агентов в таск-трекере (Linear). Опенсорс.
- Claude Code получил голосовой режим - push-to-talk через пробел, транскрипция бесплатная. Раскатывают постепенно.
- Google выпустил open-source CLI для всего Google Workspace (Drive, Gmail, Calendar, Sheets, Docs, Chat) + встроенный MCP-сервер для AI-агентов и 100+ Agent Skills.
- Microsoft выпустил Phi-4-reasoning-vision-15B - открытая компактная модель конкурирующая с моделями в разы крупнее.
- NotebookLM от Google выкатил Cinematic Video Overview - генерация анимированных документальных роликов из источников. Пока только для Ultra.
- Anthropic запустили Import Memory - перенос памяти из ChatGPT/Gemini в Claude через специальный промпт для экспорта.
- Шведское издание SVD выяснило, что записи с умных очков Meta Ray-Ban попадают к аннотаторам-людям в Кении, включая банковские данные и интимный контент. Meta судят за нарушение приватности.
- OpenAI уволили сотрудника за торговлю на Polymarket и Kalshi с использованием инсайдерской информации о датах релизов.
- Атака через prompt injection в заголовке GitHub issue скомпрометировала 4000 машин разработчиков. Cline интерпретировал вредоносный заголовок как инструкцию.
- AWS запустил AI-агентов для медиков за $100/мес - верификация пациентов, заполнение медкарт, планирование приемов.
- OpenAI запустили ChatGPT for Excel - Add-In, который строит и обновляет модели прямо в таблице по текстовому описанию, использует Computer Use фишки GPT-5.4.
- Codex Desktop от OpenAI вышел на Windows.
- Интересный новый проект: agentcard.sh - предоплаченные виртуальные Visa-карты для AI-агентов. MCP-совместимый.
- Классное исследование про то какие технологии выбирает Claude Code если явно не указывать стек.
16🔥37❤12✍8👍4👏2🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Ваш кодинг-агент уже выбрал ваш стек. Вы просто еще не заметили.
Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.
Что нашли
- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.
А что изменилось-то
Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.
И, вдобавок, есть проблема конфликта интересов, авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.
И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.
Что с этим делать
- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.
- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.
- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.
- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.
- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.
Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).
🔥 ➕ 🔁 @nobilix
Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.
Что нашли
- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.
А что изменилось-то
Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.
И, вдобавок, есть проблема конфликта интересов, авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.
И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.
Что с этим делать
- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.
- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.
- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.
- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.
- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.
Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).
🔥 ➕ 🔁 @nobilix
5🔥48❤19👏8👍5🦄4🥰2
Кэш в LLM API. Один параметр, который может изменить всю экономику inference.
На скрине сводка из эксперимента в одном из последних проектов, где используется Anthropic API, в котором кстати кэш не включен по дефолту.
Собирался написать пост об этом, но наткнулся на разбор, который сделал это лучше. Сергей Нотевский написал подробную статью про экономику кэширования у разных провайдеров.
В статье, помимо прочего:
• почему два одинаковых запроса могут отличаться в цене в 3 раза
• какие паттерны в промптинге незаметно убивают кэш
• чем отличаются контракты кэширования у OpenAI, Anthropic и Gemini и почему миграция между ними роняет hit rate вдвое
• как команда Manus снизила стоимость инференса в 10 раз тремя простыми практиками
• почему Gemini Flash-Lite с кэшем оказывается дешевле DeepSeek в ~2.7 раза
У Сергея вообще отличный канал, рекомендую подписаться @sergeinotevskii, там много практических постов, особенно на тему локальных LLM и есть другие разборы, например про проблемы большого контекстного окна. Так что воспользуюсь моментом и рекомендую канал Сергея)
На скрине сводка из эксперимента в одном из последних проектов, где используется Anthropic API, в котором кстати кэш не включен по дефолту.
Собирался написать пост об этом, но наткнулся на разбор, который сделал это лучше. Сергей Нотевский написал подробную статью про экономику кэширования у разных провайдеров.
В статье, помимо прочего:
• почему два одинаковых запроса могут отличаться в цене в 3 раза
• какие паттерны в промптинге незаметно убивают кэш
• чем отличаются контракты кэширования у OpenAI, Anthropic и Gemini и почему миграция между ними роняет hit rate вдвое
• как команда Manus снизила стоимость инференса в 10 раз тремя простыми практиками
• почему Gemini Flash-Lite с кэшем оказывается дешевле DeepSeek в ~2.7 раза
У Сергея вообще отличный канал, рекомендую подписаться @sergeinotevskii, там много практических постов, особенно на тему локальных LLM и есть другие разборы, например про проблемы большого контекстного окна. Так что воспользуюсь моментом и рекомендую канал Сергея)
3❤31👍23🔥6❤🔥2🎉2👏1
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic подала в суд на Пентагон из-за статуса "supply chain risk".
- Google купила Wiz (стартап кибербезопасности ) за $32 млрд. Крупнейшая сделка в истории Гугла.
- AI-код-ревью выходит на новый уровень: Anthropic запустила Code Review для Claude Code (команда агентов на каждый PR, находки в 84% крупных PR, $15-25 за ревью), а OpenAI выкатила Codex Security: за первый цикл просканировали 1.2 млн коммитов и нашли 792 критические уязвимости.
- Nvidia выпустила Nemotron 3 Super: архитектура Mamba+Transformer, 5x throughput, контекст 1M токенов.
- TADA - новый open-source TTS, в 5x быстрее аналогов, заявляют ноль галлюцинаций и работу на мобильном.
- Google выпустила Gemini Embedding 2, первую нативно мультимодальную модель эмбеддингов: текст, изображения, видео, аудио и документы в одном пространстве. 100+ языков.
- Ян Лекун привлек $1B при оценке $3.5B для AMI Labs. Фокус на world models, за пределами LLM-парадигмы.
- Nvidia инвестирует $2 млрд в Nebius Group (бывшая Yandex N.V.).
- Replit запустил Agent 4 с параллельными агентами и бесконечным дизайн-канвасом. Привлек $400M при оценке $9B.
- Meta купила Moltbook, соцсеть для AI-агентов.
- OpenAI покупает Promptfoo, опенсорс для тестирования безопасности AI.
- Другие новости Anthropic: Claude Marketplace для покупки инструментов партнеров (GitLab, Harvey, Replit), Anthropic Institute для изучения влияния AI на общество, визуализации прямо в чате и 1M контекст для Claude Code.
- Perplexity запустила Personal Computer: AI-агент на Mac mini с полным доступом к файлам и приложениям. Для подписчиков Max ($200/мес).
- Microsoft запустила Copilot Cowork: делегирование задач AI-агентам через все приложения M365. Также показали Copilot Health: AI-анализатор медицинских карт и данных носимых устройств (бесплатная бета, пока США).
- JetBrains представила Air, агентную среду разработки, заточенную под работу с AI-агентами от разных вендоров.
- Google Maps получил крупнейшее обновление за десятилетие: AI-ассистент Ask Maps на Gemini и 3D Immersive Navigation.
- Google анонсировала Android AppFunctions: приложения могут предоставлять свои возможности AI-агентам напрямую.
- Expo Agent: генерация нативных iOS/Android из промпта. Настоящий SwiftUI и Jetpack Compose, компиляция и деплой из браузера. На базе Claude Code.
- Anthropic опубликовала исследование на основе ~1 млн разговоров: AI уже реально вытесняет работников. По данным Time, 70-90% кода для новых моделей Claude пишется самим Claude.
- a16z опубликовала шестой рейтинг Top 100 AI-приложений.
- Upstash Box: облачные песочницы для AI-агентов с serverless-тарификацией.
- Karpathy выложил autoresearch: скрипт для автономных ML-экспериментов на одном GPU. ~100 экспериментов за ночь. CEO Shopify применил подход к Liquid и получил 53% ускорения.
🍰 Еще новость этой недели: каналу исполнился год (оказывается первый пост был 12 марта 2025). Спасибо всем подписчикам 💟
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic подала в суд на Пентагон из-за статуса "supply chain risk".
- Google купила Wiz (стартап кибербезопасности ) за $32 млрд. Крупнейшая сделка в истории Гугла.
- AI-код-ревью выходит на новый уровень: Anthropic запустила Code Review для Claude Code (команда агентов на каждый PR, находки в 84% крупных PR, $15-25 за ревью), а OpenAI выкатила Codex Security: за первый цикл просканировали 1.2 млн коммитов и нашли 792 критические уязвимости.
- Nvidia выпустила Nemotron 3 Super: архитектура Mamba+Transformer, 5x throughput, контекст 1M токенов.
- TADA - новый open-source TTS, в 5x быстрее аналогов, заявляют ноль галлюцинаций и работу на мобильном.
- Google выпустила Gemini Embedding 2, первую нативно мультимодальную модель эмбеддингов: текст, изображения, видео, аудио и документы в одном пространстве. 100+ языков.
- Ян Лекун привлек $1B при оценке $3.5B для AMI Labs. Фокус на world models, за пределами LLM-парадигмы.
- Nvidia инвестирует $2 млрд в Nebius Group (бывшая Yandex N.V.).
- Replit запустил Agent 4 с параллельными агентами и бесконечным дизайн-канвасом. Привлек $400M при оценке $9B.
- Meta купила Moltbook, соцсеть для AI-агентов.
- OpenAI покупает Promptfoo, опенсорс для тестирования безопасности AI.
- Другие новости Anthropic: Claude Marketplace для покупки инструментов партнеров (GitLab, Harvey, Replit), Anthropic Institute для изучения влияния AI на общество, визуализации прямо в чате и 1M контекст для Claude Code.
- Perplexity запустила Personal Computer: AI-агент на Mac mini с полным доступом к файлам и приложениям. Для подписчиков Max ($200/мес).
- Microsoft запустила Copilot Cowork: делегирование задач AI-агентам через все приложения M365. Также показали Copilot Health: AI-анализатор медицинских карт и данных носимых устройств (бесплатная бета, пока США).
- JetBrains представила Air, агентную среду разработки, заточенную под работу с AI-агентами от разных вендоров.
- Google Maps получил крупнейшее обновление за десятилетие: AI-ассистент Ask Maps на Gemini и 3D Immersive Navigation.
- Google анонсировала Android AppFunctions: приложения могут предоставлять свои возможности AI-агентам напрямую.
- Expo Agent: генерация нативных iOS/Android из промпта. Настоящий SwiftUI и Jetpack Compose, компиляция и деплой из браузера. На базе Claude Code.
- Anthropic опубликовала исследование на основе ~1 млн разговоров: AI уже реально вытесняет работников. По данным Time, 70-90% кода для новых моделей Claude пишется самим Claude.
- a16z опубликовала шестой рейтинг Top 100 AI-приложений.
- Upstash Box: облачные песочницы для AI-агентов с serverless-тарификацией.
- Karpathy выложил autoresearch: скрипт для автономных ML-экспериментов на одном GPU. ~100 экспериментов за ночь. CEO Shopify применил подход к Liquid и получил 53% ускорения.
🍰 Еще новость этой недели: каналу исполнился год (оказывается первый пост был 12 марта 2025). Спасибо всем подписчикам 💟
5🔥58❤38👍13🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Сила generative UI в ограничениях.
Пост навеян новой фичей Claude Builds Visuals - теперь умеет рисовать интерактивные визуализации прямо в чате.
Эта тема мне давно интересна, пошел разбираться как это устроено, нашел отличный технический блогпост - увлекательный реверс-инжиниринг. Claude вызывает внутренний tool
Неплохие примеры в действии можно посмотреть еще тут.
Эта история - частный случай более широкого тренда Generative UI и его можно делать двумя путями: генерировать полный код (HTML/React) с нуля: или генерировать конфиг по заданной схеме, а приложение само рендерит.
Vercel недавно выпустили json-render - фреймворк, который делает именно второе: AI → JSON → UI.
И еще более новый OpenUI - open-source фреймворк для генеративного UI. На 67% меньше токенов чем json-render, в 2-3x быстре. Стриминг-first.
Хорошую статью с обзором ландшафта generative UI написали CopilotKit, и еще в тему - Коля недавно показывал классный кейс использования Streamlit для похожей цели (по сути использование low-code для целей GenUI).
GenUI хорошо подходит для различных внутренних инструментов, дашбордов, систем аналитики и в образовательных целях - основной интерфейс стабилен, а в нужных местах генерируются динамические островки.
Так или иначе, лучший генеративный интерфейс рождается в ограничениях)
🔥 ➕ 🔁 @nobilix
Пост навеян новой фичей Claude Builds Visuals - теперь умеет рисовать интерактивные визуализации прямо в чате.
Эта тема мне давно интересна, пошел разбираться как это устроено, нашел отличный технический блогпост - увлекательный реверс-инжиниринг. Claude вызывает внутренний tool
show_widget, который инжектит HTML прямо в DOM страницы, и самое интересное это ограничения: минималистичная дизайн-система, последовательность строго "стили → контент → скрипты" чтобы виджет рисовался по мере генерации и не ломался. И прикольный трюк с read_me, по сути ленивая загрузка документации для экономии контекста. Автор пересобрал всю систему для терминального агента!Неплохие примеры в действии можно посмотреть еще тут.
Эта история - частный случай более широкого тренда Generative UI и его можно делать двумя путями: генерировать полный код (HTML/React) с нуля: или генерировать конфиг по заданной схеме, а приложение само рендерит.
Vercel недавно выпустили json-render - фреймворк, который делает именно второе: AI → JSON → UI.
И еще более новый OpenUI - open-source фреймворк для генеративного UI. На 67% меньше токенов чем json-render, в 2-3x быстре. Стриминг-first.
Хорошую статью с обзором ландшафта generative UI написали CopilotKit, и еще в тему - Коля недавно показывал классный кейс использования Streamlit для похожей цели (по сути использование low-code для целей GenUI).
GenUI хорошо подходит для различных внутренних инструментов, дашбордов, систем аналитики и в образовательных целях - основной интерфейс стабилен, а в нужных местах генерируются динамические островки.
Так или иначе, лучший генеративный интерфейс рождается в ограничениях)
🔥 ➕ 🔁 @nobilix
7🔥35❤14👍9✍1
This media is not supported in your browser
VIEW IN TELEGRAM
Цифровая археология: рентген и анализ всего кода локально + промпт чтобы повторить
Принял эстафету Рината от Валеры Ковальского, посмотрим что получилось.
Я написал промпт, который работает как мета-задание: сначала быстро сканирует твои репозитории, оценивает масштаб, выбирает стратегию сбора данных - и только потом действует по собственному плану + анонимизация проектов.
Скормил Claude Code, получил дашборд за 15 минут.
415 репозиториев просканировано, 160 с моими коммитами. Вот что данные рассказали про меня:
- 4 912 коммитов, 4.9M строк добавлено
- Пик продуктивности - 17:00, 1316 коммитов после 18:00
- 20% коммитов в выходные
- 2025 продуктивнее 2024 на 121% (guess why?)
Учитывая что кодинг - не основная моя активность, получилось больше чем я ожидал.
Промпт тут https://gist.github.com/nobilix/8dfa993bf1134d38cfd8291c08a20ae4
Эстафета - передай другому билдеру) Передаю @ai_driven, @kdoronin_blog, @bogdanisssimo
Если запустите у себя - делитесь в комментах скринами/ссылками)
--
Кстати, подписывайтесь на GitHub. Может, дойдут руки оформить пару проектов в open source. А пока самое полезное там - мои stars другим проектам, я часто отмечаю интересное.
Принял эстафету Рината от Валеры Ковальского, посмотрим что получилось.
Я написал промпт, который работает как мета-задание: сначала быстро сканирует твои репозитории, оценивает масштаб, выбирает стратегию сбора данных - и только потом действует по собственному плану + анонимизация проектов.
Скормил Claude Code, получил дашборд за 15 минут.
415 репозиториев просканировано, 160 с моими коммитами. Вот что данные рассказали про меня:
- 4 912 коммитов, 4.9M строк добавлено
- Пик продуктивности - 17:00, 1316 коммитов после 18:00
- 20% коммитов в выходные
- 2025 продуктивнее 2024 на 121% (guess why?)
Учитывая что кодинг - не основная моя активность, получилось больше чем я ожидал.
Промпт тут https://gist.github.com/nobilix/8dfa993bf1134d38cfd8291c08a20ae4
Эстафета - передай другому билдеру) Передаю @ai_driven, @kdoronin_blog, @bogdanisssimo
Если запустите у себя - делитесь в комментах скринами/ссылками)
--
Кстати, подписывайтесь на GitHub. Может, дойдут руки оформить пару проектов в open source. А пока самое полезное там - мои stars другим проектам, я часто отмечаю интересное.
🔥12❤7👍4