Refat Talks: Tech & AI

Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex

Сегодня случилось редкое: Anthropic и OpenAI выкатили свои главные модели в один день. Claude Opus 4.6 и GPT-5.3-Codex - оба от 5 февраля почти подряд. Поэтому мой лифтовый бенчмарк возвращается. На видео протестил обе модели - и в веб-интерфейсе, и в Claude Code / Codex. По-моему, в этой задаче однозначный фаворит - Opus, но судите сами.

Коротко что в каждом релизе.

Claude Opus 4.6
- 1M токенов контекста (было 200k) - первый Opus с таким окном
- Agent Teams - несколько агентов параллельно на одной задаче
- Adaptive Thinking - сама решает когда думать глубже
- Claude в PowerPoint (превью)
- SOTA на агентном кодинге, бьет GPT-5.2 на 144 Elo
- Нашел 500 zero-day уязвимостей в open-source
- $5/$25 за 1M токенов
- блог-пост

GPT-5.3-Codex
- Первая модель, которая участвовала в собственном создании
- На 25% быстрее при меньшем расходе токенов
- Terminal-Bench: 77% (было 64%), OSWorld: 65% (было 38%, человек ~72%)
- Первая "High capability" для кибербезопасности + $10M на гранты
- Вышла за пределы кода: PRDs, презентации, аналитика
- Codex app для macOS - 500k загрузок за 3 дня
• блог-пост

Любопытно: ни один бенчмарк в анонсах напрямую не пересекается. Обе компании выбрали разные тесты, так что сравнить лоб в лоб по цифрам - нельзя.

По ощущениям, модели стали как будто быстрее, но Opus дотошный прямо стал - перепроверяет по несколько раз из-за этого сам процесс дольше.

Disclamer: это шуточный тест, не настоящий бенчмарк, и конечно надо тестить на разных задачах, Claude и так был хорош во фронтенде, а новый Codex надо бы потестить как архитектора и ревьювера еще, так что кто потестил сам - расскажите ваши впечатления - что удалось потестить и какие впечатления?

6🔥39❤9👏5👍3

7.33K viewsedited 19:52

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Anthropic выпустила Claude Opus 4.6 - 1M токенов контекста в бете, 68.8% на ARC-AGI 2. Модель заметно сильнее в кодинге и агентных задачах. Цена на уровне Opus 4.5.

- OpenAI выпустила GPT-5.3-Codex - 77.3% на Terminal Bench, вдвое экономнее по токенам и на 40% быстрее предыдущей версии. Мой пост про оба релиза.

- Qwen выпустили Qwen3-Coder-Next - 80B параметров при 3B активных (MoE), 256K контекст (до 1M), 70.6% на SWE-Bench. Опенсорс-модель специально для кодинг-агентов с инструментами и восстановлением после ошибок.

- Kling 3.0 - видеосинтез с нативным аудио, мультишот 3-15 сек, добавили поддержку речи, диалогов и сохранение облика персонажей. По качеству на уровне Sora 2 и Veo 3.1.

- Apple интегрировала Claude Agent SDK в Xcode - по сути Claude Code прямо внутри Xcode.

- OpenAI платформу OpenAI Frontier для enterprise-агентов с контекстом бизнеса, средой выполнения и обучением на ходу, а Anthropic запустили Cowork Plugins для enterprise-scale агентов в Claude.

- VS Code запустил Agent Sessions - единое рабочее пространство для локальных, фоновых и облачных агентов. Поддержка Claude и Codex, параллельные субагенты, встроенный браузер.

- OpenAI выкатила Codex App на macOS - параллельные агенты, автоматизации по расписанию и skills, а ChatGPT получил полную интеграцию MCP Apps.

- Claude Code добавили команду /insights - анализирует все ваши сессии и выдает выводы и советы, а еще Agent Teams позволяет координировать несколько параллельных сессий Claude Code, работающих как команда. Ну, и можно упомянуть новые советы Бориса (создателя CC).

- SpaceX поглотила xAI, создав самую дорогую частную компанию в мире. xAI оценили в $125 млрд, SpaceX в $1 трлн.

- Сделка NVIDIA и OpenAI на $100 млрд трещит по швам. За 5 месяцев контракт так и не подписан. При этом OpenAI остро нуждается в кэше.

- Anthropic vs OpenAI: рекламная война. Anthropic показала рекламу на Super Bowl, высмеям планы OpenAI по рекламе в ChatGPT, и пообещала, что Claude останется без рекламы. Altman в ответ написал целое эссе, с критикой Антропик и что у ChatGPT намного больше пользователей.

- Cerebras привлек $1B в Series H при оценке $23B (лид Tiger Global). 5 месяцев назад оценка была $8B - рост почти в 3 раза. Плюс партнерство с OpenAI на $10B.

- OpenAI подключила GPT-5 к автономной лаборатории Ginkgo Bioworks и снизила стоимость синтеза белков на 40%. AI, который реально двигает науку.

- Вышла Voxtral Mini 4B Realtime от Mistral - речевая модель на 13 языков с латенси от 240ms. Открытые веса, Apache 2.0.

- Figma запустила Vectorize - AI-конвертация любых картинок в вектор.

- ACE-Step 1.5 - мошная модель для локальной генерации песен, MIT лицензия, всего 4GB VRAM.

- Falcon-H1-Tiny от TII - микромодели меньше 100M параметров для edge-устройств с 94% точностью tool-calling.

- GLM-OCR - SOTA в распознавании документов при всего 0.9B параметрах. Формулы, таблицы, извлечение информации.

- LingBot-World - опенсорс-аналог Genie3. Генерит интерактивные видео-миры в реалтайме (720p, 16fps). Под капотом MoE 28B на базе Wan 2.2.

- Granola выпустила MCP-интеграцию, контекст из встреч теперь доступен в любом AI-приложении.

- AI-паника на рынке софта: страхи инвесторов, что AI обесценит софтверные компании, перекинулись на частные фонды. Blue Owl, TPG, Ares, KKR просели двузначно, iShares Software ETF -20% с начала года.

- Вышел AI Safety Report 2026 - огромный и качественный отчет о рисках и возможностях ИИ от 100+ ученых из 30 стран.

- YC опубликовал Spring 2026 Requests for Startups - 10 направлений: AI-native workflows, stablecoins, модернизация промышленности и госсектора, "Cursor for PMs", AI-native агентства.

55👍34🔥16❤7👏6

6.88K views18:46

Refat Talks: Tech & AI

Forwarded from Поляков считает: AI, код и кейсы

Поляков считает, что он победил управляющую компанию

Разогнался с навыками для OpenClaw и заметил неэффективность: чтобы курьер Вкусвилл попал к нам домой, надо зайти в приложение УК и заказать пропуск. Иначе — пропущеные звонки, недоставленные заказы и нервы.

Наш Домпульт ужасен: 5 экранов ради одного пропуска. А гостевой паркинг — вообще боль: слоты по 30 минут, максимум 3 за раз, по мере освобождения можно ещё 3. Без пропуска — предупреждение, потом бан.

🔍 Charles Proxy: приложение для отладки трафика

Проблема: у приложения УК нет публичного API. Но любое приложение общается с сервером по HTTP. Я посмотрел сетевой трафик своего аккаунта на своём устройстве, чтобы понять, что делает приложение.

Charles Proxy — прокси для мониторинга сетевых запросов. Настроил отладочный прокси — и стало видно, какие запросы и параметры уходят при обычных действиях.

💡 Делаешь действие в приложении — и становится понятно, какие сетевые вызовы за ним стоят.

Нюанс: не уверен, что утилита работает с Андроид.

⚙️ Что автоматизировал

🔸 Парсинг новостей УК: закрытие проездов, ремонт, отключения
🔸 Заказ пропусков для курьеров и гостей
🔸 Бронирование парковочных мест
🔸 Связка: заказ во ВкусВилл → пропуск для курьера

Всё это доступно мне в приложении — бот просто повторяет те же действия, но без лишних экранов.

Последний пункт — главный. Бот собирает корзину, проверяет наличие и сам заказывает пропуск на время доставки.

🤦 Про вчерашний Puppeteer

Вчера городил безголовый Chrome с авторизацией для проверки наличия товаров ВкусВилл. Но можно было бы и по другому. Хотя и сложнее в разы.

📌 Итого

Бот теперь умеет: искать продукты → проверять наличие → собирать корзину → заказывать пропуск курьеру. Полный цикл от «хочу форель» до «курьер у двери».

Расскажите, уже пробовали бытовую автоматизацию через ИИ?

----

Поляков считает — AI, код и кейсы

❤31🔥22👍13😁2🎉1

5.19K views19:48

Refat Talks: Tech & AI

This media is not supported in your browser

VIEW IN TELEGRAM

Slidev - пожалуй лучший способ создавать презентации в эпоху AI. Markdown-first, с мощным тулингом и экспортом в PDF и PowerPoint. Делюсь своим опытом.

Инструментов для презентаций сейчас вагон - от классических PowerPoint и Google Slides до Figma Slides, Gamma, и в каждом втором туле от NodebookLM до Perplexity. Но для своих выступлений, перепробовав кучу вариантов, я как file-first адепт искал инструмент на базе markdown. Сначала это был Marp - хорош для минимальных слайдов, но ограничен. В Slidev я нашел все что не хватало.

Почему markdown для презентаций - это мощно

Все крутится вокруг идеи что слайды - это текстовый файл. Это значит:

- Хирургическая точность - find & replace, regex, массовые правки за секунды. В одной из моих през было около 50 логотипов технологий - конечно проще было это сделать кодом чем тягать в визуальном редакторе.
- Рефакторинг и рестайлинг - поменял тему в одной строчке frontmatter и все слайды перестроились. Поменял шрифт - тоже одна строчка.
- Git-friendly - нормальные диффы, версионирование, бранчи. Презентация лежит рядом с кодом проекта.
- Hackable - это веб-приложение под капотом (Vue 3 + Vite), если чего-то не хватает, можно встроить что угодно: npm-пакеты, API-запросы, интерактивные компоненты. Одна только возможность использовать какие-нибудь Lucide-icons чего стоит.
- Это просто быстрее - ты тратишь меньше времени на программы презентаций и больше на сам контент.

Что доступно из коробки

- Presenter View - заметки, таймер, preview следующего слайда, remote control с телефона (работает как веб-приложение)
- Экспорт в PDF, PPTX, PNG или деплой как статический сайт.
- Готовые layouts, темы через npm, UnoCSS для стилизации
- Mermaid-диаграммы, LaTeX-формулы
- Подсветка кода с пошаговым выделением строк (`{2|3-5|7}`)
- Magic Move - анимированная трансформация одного блока кода в другой
- Monaco Editor - live coding с автокомплитом прямо в слайде
- Рисование на слайдах во время презентации
- VS Code расширение - preview, навигация по слайдам, drag-and-drop
- И многое другое, но в минимальной комплектации это все может быть просто один файл slides.md и одна команда npx slidev

AI-ready

Есть Agent Skill который ставится одной командой npx skills add slidevjs/slidev (хех, сначала у меня был свой, но недавно выкатили официальный). Плюс презентацию можно разбить на отдельные .md файлы - супер-удобно с точки зрения контекст инжиниринга.

Slidev позиционируется как "presentation slides for developers". Но имхо с AI-агентами это доступно примерно всем - тем более с таким удобным тулингом. Будете делать презентации - попробуйте!

🔥➕🔁 @nobilix

10🔥73👍24❤10👏4💯3😁1

6.7K views12:37

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Bytedance хайпят с Seedance 2.0 - новой SOTA видео-моделью с мощно подросшим качеством генерации и нативным аудио.

- OpenAI представила GPT-5.3-Codex-Spark - компактную модель для кодинга в реальном времени, работающую на чипах Cerebras (>1000 t/s)

- Google выпустили Gemini 3 Deep Think - обновленный ризонинг мод, который выбил SOTA на нескольких бенчмарках, включая ARC-AGI-2 (84.6%). Доступна в Ultra плане.

- Zhipu AI выпустила GLM-5 - открытую модель под лицензией MIT - где-то между лучшими открытыми моделями и закрытыми фронтирными. Вместе с моделью представили свою агентный UI Z-code.

- Google DeepMind представили Aletheia - ИИ-агента для математических доказательств, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд).

- MiniMax выпустили M2.5 - модель чуть слабее GLM-5, но заметно дешевле: $0.3/$1.2 за миллион токенов против $1/$3.2 у GLM-5.

- Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast - версия в 2.5 раза быстрее обычной, но обойдется в 6 раз дороже обычной модели.

- OpenAI Responses API получили большой апдейт: server-side compaction, контейнеры с интернетом + Skills. Плюс выкатили статью с 10 советами по запуску многочасовых агентных воркфлоу.

- Anthropic привлекли $30 млрд на оценке $380 млрд - крупнейший раунд среди AI-стартапов.

- Cursor выпустили новую модель Composer 1.5. Модель с ризонингом, обучена само-суммаризации для работы с длинными диалогами.

- Claude Cowork теперь на Windows.

- Nebius (от бывших фаундеров Яндекса) покупают Tavily - популярный поиск для AI-агентов.

- Бывший CEO GitHub Томас Домке запустил Entire - "Github для ИИ-агентов". Платформа автоматически сохраняет весь контекст генерации и передает ИИ для дальнейшей работы.

- Stripe используют minions - агентов, которые могут one-shot делать фичи end-to-end.

- Warp запустили Oz - платформу для оркестрации агентов в облаке. Запускай сотни агентов из терминала, браузера, API или телефона.

- Google реализовали архитектуру Recursive Language Models (RLM) от MIT на своем Agent Development Kit.

- Alibaba выпустили Qwen-Image-2.0 - новый ИИ-фотошоп. Поддерживает качество до 2К, создает фотореалистичные картинки, слайды презентаций, людей и природу с высокой детализацией.

- Claude in PowerPoint - ассистент теперь работает внутри презентаций, редактируя слайды в реальном времени и сохраняя корпоративный стиль.

- Chrome 146 включает ранний превью WebMCP, доступный через флаг - позволяет AI-агентам делать запросы к сервисам без браузинга.

- Сэм Альтман сообщил сотрудникам, что ChatGPT вернулся к росту более 10% в месяц, а Codex вырос на 50% за неделю.

- Вокруг OpenClaw много шума, поэтому кратко любопытное: webclaw.dev - веб клиент, aight.cool - iOS app, драма с агентным PR в гитхабе, интервью фаундера с Lex Fridman, разбор с нуля на питоне.

3🔥54❤19👍8

6.98K viewsedited 19:30

Refat Talks: Tech & AI

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Самые полезные вещи про AI я узнаю из разговоров с теми, кто уже внедрил и набил шишки.

19–20 февраля как раз такой формат: ROИИ 2026. Конфа, где спикеры делятся опытом внедрения: ROI, P&L, unit-экономика, стоимость ошибок, практические советы по внедрению.

Выступаю и слушаю. Спикеры: фаундеры, тех-лиды, CPO, CTO и Head of AI.

• первый день "Продукт и стратегия" (я выступаю в этот день)
• второй день про "AI-Маркетинг и Рост"

Участие бесплатно при подписке на спикеров (на многих вы и так подписаны).

• Полная программа на сайте
• Добавить в календарик
• Shortcut: регистрация в боте по ссылке

2🔥19❤7❤‍🔥5👍4

6.57K views18:04

Refat Talks: Tech & AI

Cloudflare запустили Markdown for Agents - и тут есть что обсудить.

Помните мой разбор LLMs.txt? Тогда я сделал рисерч и пришел к выводу, что идея скорее мертворожденная: 0.3% адаптация среди топ-100к сайтов, ни один крупный провайдер официально не поддерживает. Собственно, так и вышло: cейчас почти никто не делает LLMs.txt.

А вот тут совсем недавно Cloudflare зашли с другой стороны: релизнув Markdown for agents - когда AI-агент отправляет запрос с заголовком Accept: text/markdown, Cloudflare на лету конвертирует HTML в чистый MD. Плюс в ответе будет приходить заголовок x-markdown-tokens с оценкой токенов. Агент может заранее понять, влезет ли страница в контекстное окно, до того как ее обработает. По сути это context window management на уровне HTTP.

Кстати, Claude Code и OpenCode уже отправляют Accept: text/markdown - они буквально просили об этом, просто никто не слушал.

Контекст шире, чем кажется. Cloudflare за полтора года развернулись на 180 градусов. Июль 2024 - дали кнопку "блокировать AI-краулеров одним кликом". Июль 2025 - все новые домены блокируют AI по умолчанию, 416 миллиардов заблокированных запросов. И вот февраль 2026 - запускают Markdown for Agents и приглашают тех же агентов обратно.

Девелоперское комьюнити принимает с энтузиазмом, предложили воркэраунд для бесплатных планов, появились Spatie-пакет для Laravel, плагин для Caddy, WordPress-плагин от создателя Yoast.

SEO-шникам же идея не очень зашла. Джон Мюллер из Google прямо назвал идею "stupid". Некоторые предупреждают о "shadow web" - сайты могут вставлять скрытые инструкции в markdown-версию.

Меня лично бесит, когда Claude Code не может получить ответ с какого-то сайта, потому что тот решил блокировать AI-агентов. Особенно этим грешит OpenAI. Я понимаю владельцев сайтов - никому не хочется оплачивать трафик ботов, которые выкачивают контент. Но универсального решения пока нет, и от этого страдают все.

Идея Cloudflare мне нравится больше, чем LLMs.txt да и Cloudflare настолько большой провайдер (~20% веба), что может задать тренд, если эксперимент получится удачным. Если Vercel и Fastly, Netlify и др. подхватят - получим де-факто стандарт. Но проблема, что этот же заголовок становится маркером "я AI-агент", что упрощает и блокировку.

А вы как думаете - это шаг в правильном направлении или наоборот нужно оставить веб таким, каким его видят люди и не пытаться его подогнать под требования агентов?

6🔥47❤19👍8👏4

7.03K views19:16

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Google выпустила Gemini 3.1 Pro - серьезный скачок по бенчам, трехуровневый thinking, контекст 1M токенов.

- Anthropic выпустила Claude Sonnet 4.6 - апгрейд кодинга, computer use и long-context reasoning. На 40% дешевле Opus.

- Alibaba выпустила Qwen 3.5 - MoE на 397B параметров. 201 язык, Apache 2.0. По бенчам на уровне фронтирных моделей.

- xAI выпустила Grok 4.20 в бете - мультиагентная архитектура из 4 специализированных агентов, работающих параллельно.

- OpenAI поглотила OpenClaw. Создатель Питер Штайнбергер возглавит направление personal agents. Проект остается опенсорсным, переезжает в независимый фонд.

- OpenAI привлекает рекордный раунд ~$100B при оценке ~$830-850B. Крупнейшая сделка в истории частного финансирования. Среди инвесторов SoftBank, Nvidia, Amazon, Microsoft.

- Anthropic выпустила Claude Code Security - инструмент с multi-stage self-verification. Нашли 500+ уязвимостей в опенсорс-проектах, некоторые существовали десятилетиями. После анонса акции cybersecurity-компаний просели (JFrog -24.6%).

- Пентагон использовал Claude через Palantir для планирования операции в Венесуэле.

- Seedance 2.0 от ByteDance вызвал крупнейший copyright-скандал в AI-видео. Disney, Paramount, Netflix, Warner Bros потребовали прекратить нарушения. ByteDance частично откатились и пообещали safeguards.

- Figma выпустила интеграцию с Claude Code ("Code to Canvas") - можно перенести работающий UI из Claude Code в редактируемые Figma-слои через MCP. Работает в обе стороны.

- Anthropic обновила политику использования - подписку Claude теперь нельзя использовать через сторонние инструменты (Cline, Roo Code, OpenClaw). Начались баны аккаунтов злоупотребляющих этим, что вызвало негативную реакцию сообщества.

- OpenAI тихо обновила миссию, убрав слова про безопасность и отсутствие финансового мотива. Было: "Build AI that safely benefits humanity, unconstrained by need to generate financial return". Стало: "Ensure AGI benefits all of humanity".

- Google добавила в Gemini генерацию музыки через Lyria 3 - треки до 30 секунд из текста или изображений. SynthID маркировка.

- GitHub Agentic Workflows вышел в technical preview - автоматизация репозиториев через AI-агентов в GitHub Actions. Описываешь желаемый результат в Markdown, агент выполняет.

- Cohere Labs выпустила TinyAya - открытые мультиязычные модели (3.35B) для 67+ языков. Работает на устройствах без интернета.

- Kitten TTS V0.8 - сверхмаленькая TTS-модель, самая маленькая версия всего 14M параметров (25 МБ), работает на CPU. Apache 2.0.

- World Labs (Fei-Fei Li) привлекла $1B при оценке ~$5B. Продукт MARBLE создает 3D-миры из текста, изображений и видео.

- Manus (Meta) запустил AI-агентов в Telegram - полноценный Manus с reasoning, tools и multi-step задачами прямо в мессенджере.

- Cursor запустил Marketplace - плагины для полного цикла разработки: skills, MCPs, субагенты, хуки.

- ARC-AGI-3 - новый интерактивный бенчмарк reasoning для AI-агентов. Полный запуск 25 марта.

- Anthropic опубликовала исследование работы людей с AI-агентами на основе миллионов взаимодействий в Claude Code. Много интересного.

- Исследование влияния LLM на книжный рынок: за 3 года количество новых книг утроилось, среднее качество снизилось. Но топ-1000 книг по категориям стали лучше - опытные авторы выиграли, новые проиграли.

- React вайб-кодерам на заметку: React Doctor - новый, но быстро набирающий популярность инструмент для диагностики React-кода.

6🔥46❤23👍10🦄3🤩2🥰1

6.75K viewsedited 19:39

Refat Talks: Tech & AI

Файл, который вы первым делом создаете для кодинг-агента, скорее всего делает его работу хуже. Разбираем исследование о том, помогают ли AGENTS.md и CLAUDE.md файлы кодинг-агентам решать задачи.

Если вы работаете с Claude Code, Codex или Cursor - вы наверняка слышали: "первым делом настрой CLAUDE.md

AGENTS.md`" (обобщим как context files). Кто-то использует шаблоны из Github и постов, а кто-то запускает

`/init`. Звучит как must-have. Но исследователи из ETH Zurich решили проверить, работает ли это на самом деле.

Что проверяли и к чему пришли

Исследование "Do Context Files Help?" тестировало три сценария: агент с developer-written файлом, агент без файла вообще, и агент с LLM-generated файлом (тот самый /init). Задачи - реальные GitHub issues из SWE-bench. Получили:

- Developer-written файлы: +4% к resolve rate. Небольшой прирост
- LLM-generated файлы: -3%. Хуже, чем без файла вообще
- Стоимость: +20% во всех сценариях с context files

Результат стабилен по моделям и промптам для генерации. Авторы рекомендуют отказаться от auto-generated файлов и включать только минимальные специфические требования.

Когда модель сама генерирует описание кодовой базы, она записывает то, что и так может найти за минуту через rg и чтение package.json. По сути это дублирование. Только теперь это дублирование сидит в контексте каждого запроса, занимает токены и создает bias.

Еще есть и концепция "instruction budget" - frontier модели удерживают в фокусе примерно 150-200 инструкций. Но это общий бюджет на все: system prompt инструмента, ваш context file и сама задача. Системный промпт Claude Code или Codex уже занимает значительную часть этого бюджета. Каждая лишняя строка в вашем файле конкурирует за внимание модели со всем остальным.

Мой подход

Я практически не использую /init. Вместо этого начинаю с ручного минималистичного CLAUDE.md. Там чаще бизнес-контекст (про что проект, текущее состояние, что важно учитывать на этой стадии), а не описание файловой структуры. Придерживаюсь реактивного подхода: если агент раз за разом делает одну и ту же ошибку - добавляю правило. Не делает - не добавляю. Периодически делаю ревизию.

Часто использую условные правила вместо постоянных: "если делаешь X - используй Y" вместо "всегда используй Y". Это снижает noise для задач, где правило нерелевантно.

В больших проектах - вложенные файлы по папкам. Progressive disclosure: агент получает инструкции только для той части кодовой базы, в которой работает.

Еще из наблюдений

- Негативные инструкции ("не используй X") парадоксально могут увеличить вероятность использования X. Лучше укажите что использовать вместо.
- Периодически удаляйте файл целиком и смотрите, что реально сломается. С каждым апдейтом моделей - сломается все меньше
- Compiler/linter лучше текстовых инструкций - если можно выразить правило через ESLint rule, tsconfig strict, pre-commit hook - это надежнее
- AGENTS.md ≠ CONTRIBUTING.md - если у вас уже есть CONTRIBUTING.md для людей, не дублируйте. Просто сошлитесь на него. То же касается README.md
- Не скачивайте всякие чужие awesome-claude-md-for-best-developers-pack - там нет нюансов вашего проекта, зато есть накопленные рудименты, которые современные модели и так знают.
- Иногда вам просто не нужен файл контекста, на сегодня вполне ок кодить без него, особенно если проект новый.

Context files - не бесполезны. Но если их генерировать и не поддерживать - они точно скорее вредят, чем помогают. Минимальный, реактивный, актуальный файл с фокусом на нестандартных вещах - пока лучший подход.

А какой у вас опыт?

4🔥72👍40❤20

7.13K viewsedited 10:40

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Anthropic отказала Пентагону в использовании Claude для массовой слежки и автономного оружия. Пентагон разорвал контракт, Трамп потребовал отказаться от Claude во всех фед. агентствах. Anthropic оспорит решение в суде. Ирония: OpenAI тут же заключила аналогичный контракт с оборонкой, за что многие стали отменять подписки.

- Alibaba выпустила Qwen 3.5 Medium: Qwen3.5-35B-A3B, квант работает на одной RTX 3090 с 100+ т/с, по качеству сопоставима с Sonnet 4.5. Контекст 1M, Apache 2.0. SOTA для локальных запусков!

- Reve v1.5: большой апдейт генератора картинок, третье место на арене. Улучшена работа с текстом включая кириллицу.

- ByteDance выкатили Seedream 5.0 Lite для генерации и редактирования картинок. Урезанная из-за проблем с копирайтом, но все еще хороша.

- Google представила Nano Banana 2: качество Pro с быстродействием Flash, разрешение до 4K, веб-поиск изображений в реальном времени.

- Сразу три крупных релиза своих ~~OpenClaw~~ облачных автономных агентов: Perplexity запустил Computer. Cursor запустил Cloud Agents. Notion выпустил Custom Agents, Microsoft представила Copilot Tasks.

- Anthropic опубликовали скандальное расследование о промышленной дистилляции Claude китайцами: DeepSeek, Moonshot AI и MiniMax отправили ~16 млн запросов через ~24 000 фиктивных аккаунтов.

- ChatGPT начал показывать рекламу пользователям бесплатного и Go-плана в США. $60 CPM при минимальном бюджете $200 000.

- OpenAI завершила крупнейший раунд частного финансирования в истории: $110 млрд при оценке $840 млрд.

- Джек Дорси (создать Твиттера) уволил 4000 сотрудников Block (40% штата), прямо назвав причиной AI-инструменты. Акции +23%.

- Inception выпустил диффузионную LLM Mercury 2 со скоростью 1009 токенов/сек на Blackwell, в 3-5 раз быстрее фронтирных моделей. На AIME 91%, на уровне o3.

- Стартап Taalas сделал чип с весами Llama 3.1, "запеченными" прямо в кремнии: ~17k токенов/сек (это очень много!)

- OpenAI объявила, что SWE-bench Verified больше не актуален.

- Claude Code получил Auto Memory: через /memory агент сам ведет блокнот о проекте, данные сохраняются между сессиями.

- Android получит task automation на Pixel 10 и Galaxy S26: встроенный Gemini будет сам заказывать Uber, оформлять доставку и т.д.

- Claude Cowork получил плагины для финансов, HR, дизайна и инженерии, а также 12 новых коннекторов включая Google Drive, Gmail и DocuSign.

- Кризис в традиционном софте продолжается: CEO Workday заявил, что vibe coding не создаст ERP-систему, но акции упали на 40% с начала года. IBM потеряла 10% после запуска Anthropic AI-инструмента для COBOL.

- Невидимые Unicode-символы могут заставить AI-агентов выполнять скрытые инструкции. Без инструментов угрозы нет, но с доступом к tools модели декодируют и выполняют скрытые команды.

- Исследование (MATS Research, ETH Zurich, Anthropic): LLM-агенты деанонимизируют пользователей по публичным постам, выводя место проживания, профессию и интересы. Масштабируется на десятки тысяч кандидатов.

- Pew Research: 54% американских подростков используют ИИ для учебы (год назад 27%), каждый 10-й делает с ИИ всю домашку.

- Cloudflare переписали Next.js под Vite и Workers с помощью AI за $1100 и 7 дней. Проект Vinext решает реальную проблему деплоя Next.js.

- Claude Code получил Remote Control: запускаешь сессию на PC, управляешь с телефона или через веб. Активно пользуюсь, пока не хватает многого, но уже удобнее сторонних инструментов.

- Пара полезных новых OSS проектов на заметку: hermes-agent - что-то среднее между OpenClaw и CC, llmfit - чекает ваше железо и говорит, какие актуальные модели на нем запустятся.

6🔥37❤24👍6🎉2

5.62K viewsedited 18:33

Refat Talks: Tech & AI

This media is not supported in your browser

VIEW IN TELEGRAM

Про PDF OCR и Bounding Boxes: рентген для ваших документов - где это применяется и на что обращать внимание при выборе парсеров документов.

Сейчас работаю над проектом, где также требуется ручная проверка результатов AI. И в очередной раз провел раунд сравнения различных инструментов для парсинга PDF. Расскажу про bbox в целом и конкретные тулы, которые я использую.

Про bbox я уже упоминал - это координаты прямоугольника, который описывает положение элемента на странице. Формат обычно [x1, y1, x2, y2].

Где это применяется

Очевидный юзкейс - Human Review (например на видео - реальный проект) или эдакий deeplink на точку в документе в RAG-системах. Но применение шире, например, я часто использую это в Evaluation пайплайнах - Bbox дает ground truth для автоматической оценки.

Уровни гранулярности

Не все bounding boxes одинаковые. Есть спектр:
- Блок - крупный кусок: весь текст до следующего заголовка
- Элемент - абзац, пункт списка, таблица, рисунок (обычно идеальный баланс гранулярности)
- Строка/слово/символ - максимальная гранулярность, на практике нужно редко

Два подхода к grounding

1. Inline grounding (eager) - каждый блок текста несет ссылку на свой источник. Обычно это anchor/референс (ID блока), реже и сами bbox прямо инлайном. В ответах LLM будет сразу референс на bbox.
1. Post-hoc grounding (lazy) - LLM/агент работает с чистым markdown без каких-либо референсов. Рядом лежит JSON с bbox и текстом каждого блока. Когда агент возвращает цитату и страницу - детерминированно ищем этот текст в JSON и достаем bbox. Агент вообще не знает про bbox, input чистый.

На практике post-hoc почти всегда лучше для контекст-инжиниринга. Бывают исключения, но rule of thumb - при прочих равных выбирайте его.

Мой опыт: Marker -> MinerU

До недавнего времени моим фаворитом был Marker + DataLab (их hosted API). Отличный инструмент, прекрасный playground для тестирования. Но в этом проекте столкнулся с проблемой гранулярности: когда вместо элемента списка - подсвечивается полстраницы.

Переехал на MinerU от OpenDataLab (китайские ребята). Ключевое отличие - MinerU отдает каждый ListItem как отдельный элемент с собственным bbox. Именно то, что нужно для точного grounding, еще и поддерживается правильная иерархия. У MinerU есть облако с какими-то супер-щедрыми лимитами типа 10K файлов в день. И локально запускается, но учитывайте что это 3-10 секунд на страницу при больших объемах - медленно. И, кстати, они используют в том числе SOTA модель PaddleOCR, которую не зря нахваливал Глеб.

Альтернативы

Альтернатив море: Docling, LlamaParse, cloud APIs (Azure Document Intelligence, AWS Textract, Google Document AI), можно даже Gemini напрямую скармливать страницы и тд. Я тестил многое из этого.

Мой критерий простой: нужен инструмент, у которого есть и облако, и совместимая локальная версия. Облако - для скорости и чтобы мой комп не жужжал. Локальная версия - для sensitive данных.

Второй момент: зрелый пайплайн. Когда подключаешь Gemini или PaddleOCR напрямую, весь scaffolding (PDF->IMG, нормализация, reading order, иерархия элементов, обработка таблиц, SO) ложится на тебя.

Фронтенд: подсветка в PDF

Для визуализации bbox в браузере - PDF.js и React-обертки вокруг него: react-pdf-viewer с highlight plugin (как на видео).

Короче, если работаете с PDF - заранее продумайте grounding. Это относительно недорогая фича, которая дает кратный рост доверия пользователей к системе.

🔥➕🔁 @nobilix

5🔥37👍22❤15👏1🤩1🤝1

5.35K viewsedited 17:34

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- OpenAI выпустили GPT-5.4 и GPT-5.4 Pro: 1M токенов, нативный computer use, на 33% меньше ошибочных утверждений по сравнению с GPT-5.2. Еще выкатили и сделали дефолтной GPT-5.3 Instant.

- Apple представила MacBook Neo за $599 - первый Mac на чипе от iPhone (A18 Pro). Также вышли MacBook Pro на M5 Pro и M5 Max.

- Google выпустил Gemini 3.1 Flash-Lite - самую быструю и дешевую модель в линейке Gemini 3.

- На фоне конфликта с Пентагоном Claude вышел на 1 место в App Store + запустили программу поддержки опен-сорса и программу амбассадоров.

- Cursor запустил Automations - always-on фоновые агенты в облачных sandbox с памятью. Еще Cursor теперь доступен в JetBrains IDE через Agent Client Protocol.

- OpenAI выпустили Symphony - open-source оркестратор для агентов в таск-трекере (Linear). Опенсорс.

- Claude Code получил голосовой режим - push-to-talk через пробел, транскрипция бесплатная. Раскатывают постепенно.

- Google выпустил open-source CLI для всего Google Workspace (Drive, Gmail, Calendar, Sheets, Docs, Chat) + встроенный MCP-сервер для AI-агентов и 100+ Agent Skills.

- Microsoft выпустил Phi-4-reasoning-vision-15B - открытая компактная модель конкурирующая с моделями в разы крупнее.

- NotebookLM от Google выкатил Cinematic Video Overview - генерация анимированных документальных роликов из источников. Пока только для Ultra.

- Anthropic запустили Import Memory - перенос памяти из ChatGPT/Gemini в Claude через специальный промпт для экспорта.

- Шведское издание SVD выяснило, что записи с умных очков Meta Ray-Ban попадают к аннотаторам-людям в Кении, включая банковские данные и интимный контент. Meta судят за нарушение приватности.

- OpenAI уволили сотрудника за торговлю на Polymarket и Kalshi с использованием инсайдерской информации о датах релизов.

- Атака через prompt injection в заголовке GitHub issue скомпрометировала 4000 машин разработчиков. Cline интерпретировал вредоносный заголовок как инструкцию.

- AWS запустил AI-агентов для медиков за $100/мес - верификация пациентов, заполнение медкарт, планирование приемов.

- OpenAI запустили ChatGPT for Excel - Add-In, который строит и обновляет модели прямо в таблице по текстовому описанию, использует Computer Use фишки GPT-5.4.

- Codex Desktop от OpenAI вышел на Windows.

- Интересный новый проект: agentcard.sh - предоплаченные виртуальные Visa-карты для AI-агентов. MCP-совместимый.

- Классное исследование про то какие технологии выбирает Claude Code если явно не указывать стек.

16🔥37❤12✍8👍4👏2🥰1

5.1K views17:45

Refat Talks: Tech & AI

This media is not supported in your browser

VIEW IN TELEGRAM

Ваш кодинг-агент уже выбрал ваш стек. Вы просто еще не заметили.

Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.

Что нашли

- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.

А что изменилось-то

Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.

И, вдобавок, есть проблема конфликта интересов, авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.

И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.

Что с этим делать

- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.

- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.

- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.

- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.

- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.

Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).

🔥 ➕ 🔁 @nobilix

5🔥48❤19👏8👍5🦄4🥰2

13.1K viewsedited 16:35

Refat Talks: Tech & AI

Кэш в LLM API. Один параметр, который может изменить всю экономику inference.

На скрине сводка из эксперимента в одном из последних проектов, где используется Anthropic API, в котором кстати кэш не включен по дефолту.

Собирался написать пост об этом, но наткнулся на разбор, который сделал это лучше. Сергей Нотевский написал подробную статью про экономику кэширования у разных провайдеров.

В статье, помимо прочего:
• почему два одинаковых запроса могут отличаться в цене в 3 раза
• какие паттерны в промптинге незаметно убивают кэш
• чем отличаются контракты кэширования у OpenAI, Anthropic и Gemini и почему миграция между ними роняет hit rate вдвое
• как команда Manus снизила стоимость инференса в 10 раз тремя простыми практиками
• почему Gemini Flash-Lite с кэшем оказывается дешевле DeepSeek в ~2.7 раза

У Сергея вообще отличный канал, рекомендую подписаться @sergeinotevskii, там много практических постов, особенно на тему локальных LLM и есть другие разборы, например про проблемы большого контекстного окна. Так что воспользуюсь моментом и рекомендую канал Сергея)

3❤31👍23🔥6❤‍🔥2🎉2👏1

3.83K views18:39

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Anthropic подала в суд на Пентагон из-за статуса "supply chain risk".

- Google купила Wiz (стартап кибербезопасности ) за $32 млрд. Крупнейшая сделка в истории Гугла.

- AI-код-ревью выходит на новый уровень: Anthropic запустила Code Review для Claude Code (команда агентов на каждый PR, находки в 84% крупных PR, $15-25 за ревью), а OpenAI выкатила Codex Security: за первый цикл просканировали 1.2 млн коммитов и нашли 792 критические уязвимости.

- Nvidia выпустила Nemotron 3 Super: архитектура Mamba+Transformer, 5x throughput, контекст 1M токенов.

- TADA - новый open-source TTS, в 5x быстрее аналогов, заявляют ноль галлюцинаций и работу на мобильном.

- Google выпустила Gemini Embedding 2, первую нативно мультимодальную модель эмбеддингов: текст, изображения, видео, аудио и документы в одном пространстве. 100+ языков.

- Ян Лекун привлек $1B при оценке $3.5B для AMI Labs. Фокус на world models, за пределами LLM-парадигмы.

- Nvidia инвестирует $2 млрд в Nebius Group (бывшая Yandex N.V.).

- Replit запустил Agent 4 с параллельными агентами и бесконечным дизайн-канвасом. Привлек $400M при оценке $9B.

- Meta купила Moltbook, соцсеть для AI-агентов.

- OpenAI покупает Promptfoo, опенсорс для тестирования безопасности AI.

- Другие новости Anthropic: Claude Marketplace для покупки инструментов партнеров (GitLab, Harvey, Replit), Anthropic Institute для изучения влияния AI на общество, визуализации прямо в чате и 1M контекст для Claude Code.

- Perplexity запустила Personal Computer: AI-агент на Mac mini с полным доступом к файлам и приложениям. Для подписчиков Max ($200/мес).

- Microsoft запустила Copilot Cowork: делегирование задач AI-агентам через все приложения M365. Также показали Copilot Health: AI-анализатор медицинских карт и данных носимых устройств (бесплатная бета, пока США).

- JetBrains представила Air, агентную среду разработки, заточенную под работу с AI-агентами от разных вендоров.

- Google Maps получил крупнейшее обновление за десятилетие: AI-ассистент Ask Maps на Gemini и 3D Immersive Navigation.

- Google анонсировала Android AppFunctions: приложения могут предоставлять свои возможности AI-агентам напрямую.

- Expo Agent: генерация нативных iOS/Android из промпта. Настоящий SwiftUI и Jetpack Compose, компиляция и деплой из браузера. На базе Claude Code.

- Anthropic опубликовала исследование на основе ~1 млн разговоров: AI уже реально вытесняет работников. По данным Time, 70-90% кода для новых моделей Claude пишется самим Claude.

- a16z опубликовала шестой рейтинг Top 100 AI-приложений.

- Upstash Box: облачные песочницы для AI-агентов с serverless-тарификацией.

- Karpathy выложил autoresearch: скрипт для автономных ML-экспериментов на одном GPU. ~100 экспериментов за ночь. CEO Shopify применил подход к Liquid и получил 53% ускорения.

🍰 Еще новость этой недели: каналу исполнился год (оказывается первый пост был 12 марта 2025). Спасибо всем подписчикам 💟

5🔥58❤38👍13🙏2

3.47K viewsedited 18:43

Refat Talks: Tech & AI

This media is not supported in your browser

VIEW IN TELEGRAM

Сила generative UI в ограничениях.

Пост навеян новой фичей Claude Builds Visuals - теперь умеет рисовать интерактивные визуализации прямо в чате.

Эта тема мне давно интересна, пошел разбираться как это устроено, нашел отличный технический блогпост - увлекательный реверс-инжиниринг. Claude вызывает внутренний tool show_widget, который инжектит HTML прямо в DOM страницы, и самое интересное это ограничения: минималистичная дизайн-система, последовательность строго "стили → контент → скрипты" чтобы виджет рисовался по мере генерации и не ломался. И прикольный трюк с read_me, по сути ленивая загрузка документации для экономии контекста. Автор пересобрал всю систему для терминального агента!

Неплохие примеры в действии можно посмотреть еще тут.

Эта история - частный случай более широкого тренда Generative UI и его можно делать двумя путями: генерировать полный код (HTML/React) с нуля: или генерировать конфиг по заданной схеме, а приложение само рендерит.

Vercel недавно выпустили json-render - фреймворк, который делает именно второе: AI → JSON → UI.

И еще более новый OpenUI - open-source фреймворк для генеративного UI. На 67% меньше токенов чем json-render, в 2-3x быстре. Стриминг-first.

Хорошую статью с обзором ландшафта generative UI написали CopilotKit, и еще в тему - Коля недавно показывал классный кейс использования Streamlit для похожей цели (по сути использование low-code для целей GenUI).

GenUI хорошо подходит для различных внутренних инструментов, дашбордов, систем аналитики и в образовательных целях - основной интерфейс стабилен, а в нужных местах генерируются динамические островки.

Так или иначе, лучший генеративный интерфейс рождается в ограничениях)

🔥 ➕ 🔁 @nobilix

7🔥35❤14👍9✍1

3.93K viewsedited 09:00

Refat Talks: Tech & AI

This media is not supported in your browser

VIEW IN TELEGRAM

Цифровая археология: рентген и анализ всего кода локально + промпт чтобы повторить

Принял эстафету Рината от Валеры Ковальского, посмотрим что получилось.

Я написал промпт, который работает как мета-задание: сначала быстро сканирует твои репозитории, оценивает масштаб, выбирает стратегию сбора данных - и только потом действует по собственному плану + анонимизация проектов.

Скормил Claude Code, получил дашборд за 15 минут.

415 репозиториев просканировано, 160 с моими коммитами. Вот что данные рассказали про меня:
- 4 912 коммитов, 4.9M строк добавлено
- Пик продуктивности - 17:00, 1316 коммитов после 18:00
- 20% коммитов в выходные
- 2025 продуктивнее 2024 на 121% (guess why?)

Учитывая что кодинг - не основная моя активность, получилось больше чем я ожидал.

Промпт тут https://gist.github.com/nobilix/8dfa993bf1134d38cfd8291c08a20ae4

Эстафета - передай другому билдеру) Передаю @ai_driven, @kdoronin_blog, @bogdanisssimo

Если запустите у себя - делитесь в комментах скринами/ссылками)

--
Кстати, подписывайтесь на GitHub. Может, дойдут руки оформить пару проектов в open source. А пока самое полезное там - мои stars другим проектам, я часто отмечаю интересное.

🔥12❤7👍4

1.8K views11:42

About

Blog

Apps

Platform