Исследователи задали Claude простой вопрос: "Я хочу помыть машину. Автомойка в 100 метрах. Мне идти пешком или ехать?"
Claude ответил: идти пешком.
Все крупные LLM ответили: идти пешком.
Правильный ответ: ехать.
Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта.
Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных.
Добавили аккуратно оформленную роль эксперта? Всё ещё 0%.
Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%.
Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%.
Ключевой механизм сидит внутри шага "Task".
Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает реальную цель. А когда её вынуждают сформулировать задачу как "доставить машину на автомойку", скрытое физическое ограничение становится явным прямо в контекстном окне.
Знание у модели уже было. Её просто не заставляли вытащить это знание наружу до того, как она выдаст вывод.
Самый неприятный результат вот какой: структурированное рассуждение обогнало простую накачку контекстом в 2,83 раза.
Больше фактов почти не помогало. Помогали нормальные когнитивные подпорки. Это переворачивает дефолтный индустриальный инстинкт. Когда агенты фейлятся, большинство команд добавляют больше retrieval, больше документов, больше памяти. А это исследование говорит, что узкое место не в отсутствии инфы. Узкое место в том, как модель заставляют перерабатывать то, что у неё уже есть.
Та же модель. Те же параметры. Скачок качества рассуждений на 55 процентных пунктов. Это не масштабирование.
Это архитектура на уровне промпта.
Кому интересно, вот статья - https://arxiv.org/abs/2602.21814🌯
Claude ответил: идти пешком.
Все крупные LLM ответили: идти пешком.
Правильный ответ: ехать.
Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта.
Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных.
Добавили аккуратно оформленную роль эксперта? Всё ещё 0%.
Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%.
Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%.
Ключевой механизм сидит внутри шага "Task".
Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает реальную цель. А когда её вынуждают сформулировать задачу как "доставить машину на автомойку", скрытое физическое ограничение становится явным прямо в контекстном окне.
Знание у модели уже было. Её просто не заставляли вытащить это знание наружу до того, как она выдаст вывод.
Самый неприятный результат вот какой: структурированное рассуждение обогнало простую накачку контекстом в 2,83 раза.
Больше фактов почти не помогало. Помогали нормальные когнитивные подпорки. Это переворачивает дефолтный индустриальный инстинкт. Когда агенты фейлятся, большинство команд добавляют больше retrieval, больше документов, больше памяти. А это исследование говорит, что узкое место не в отсутствии инфы. Узкое место в том, как модель заставляют перерабатывать то, что у неё уже есть.
Та же модель. Те же параметры. Скачок качества рассуждений на 55 процентных пунктов. Это не масштабирование.
Это архитектура на уровне промпта.
Кому интересно, вот статья - https://arxiv.org/abs/2602.21814
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, Anthropic выкатили новую фичу auto-memory.
Теперь Claude запоминает то, что узнаёт о тебе между сессиями: контекст проекта, паттерны дебага, предпочитаемые подходы, и потом подтягивает это сам, без того чтобы тебе приходилось что-то вручную записывать.
Теперь можно думать так:
Почитай доки, чтобы подробнее разобраться с памятью и тем, как она работает🙂
Теперь Claude запоминает то, что узнаёт о тебе между сессиями: контекст проекта, паттерны дебага, предпочитаемые подходы, и потом подтягивает это сам, без того чтобы тебе приходилось что-то вручную записывать.
Теперь можно думать так:
Claude.MD это твои инструкции для Claude, а Memory.MD это черновик памяти Claude, который он сам обновляет. Если попросишь Claude что-то запомнить, он запишет это туда.Почитай доки, чтобы подробнее разобраться с памятью и тем, как она работает
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кто-то сделал интерактивный визуализатор GPT, который показывает каждый шаг того, как модель генерирует ответ. Не только финальный результат, а весь пайплайн. 🧸
Please open Telegram to view this post
VIEW IN TELEGRAM
Boris Cherny поделился тем, что ждёт нас в следующей версии Claude Code:
Они добавляют два новых скилла:✅
Вместе эти скиллы автоматизируют большую часть рутины, которая раньше требовалась, чтобы:
1. довести pull request до продакшена
2. делать простые, параллелящиеся миграции кода
Использует параллельных агентов, чтобы подтянуть качество кода, поднастроить производительность и проверить соответствие
Пример: "hey claude сделай это изменение в коде, а потом запусти
Интерактивно помогает спланировать миграцию кода, а потом выполняет её параллельно десятками агентов.
Каждый агент работает в полной изоляции через git worktrees, прогоняет тесты и только потом поднимает PR.
Пример: "
Они добавляют два новых скилла:
/simplify и /batch. Он сам пользуется обоими каждый день и очень хочет поделиться ими со всеми. Вместе эти скиллы автоматизируют большую часть рутины, которая раньше требовалась, чтобы:
1. довести pull request до продакшена
2. делать простые, параллелящиеся миграции кода
/simplifyИспользует параллельных агентов, чтобы подтянуть качество кода, поднастроить производительность и проверить соответствие
CLAUDE.md.Пример: "hey claude сделай это изменение в коде, а потом запусти
/simplify"/batchИнтерактивно помогает спланировать миграцию кода, а потом выполняет её параллельно десятками агентов.
Каждый агент работает в полной изоляции через git worktrees, прогоняет тесты и только потом поднимает PR.
Пример: "
/batch migrate src/ from Solid to React"Please open Telegram to view this post
VIEW IN TELEGRAM
Сохраняем себе: этот свежий репо с claude-code-best-practice
Там в одном месте собраны продакшн-готовые агенты, память между сессиями, кастомные хуки, skills и команды.
Там в одном месте собраны продакшн-готовые агенты, память между сессиями, кастомные хуки, skills и команды.
4
Что на самом деле выбирает Claude Code, если попросить его что-то собрать, вообще не называя в запросе никакие инструменты.
Парни 2 430 раз натравили Claude Code на реальные репозитории и смотрели, что он выбирает. Ни в одном промпте не было названий инструментов. Только открытые, не зауженные вопросы.
3 модели · 4 типа проектов · 20 категорий инструментов · 85,3% доля извлечений
Главный вывод: Claude Code скорее строит, чем покупает. Custom/DIY это самый частый одиночный ярлык, который удалось извлечь: он всплыл в 12 из 20 категорий (при этом он размазан по категориям, тогда как конкретные инструменты обычно привязаны к одной категории). Когда его просят “добавь feature flags”, он собирает конфиг-систему на env vars и раскатку по процентам вместо того, чтобы рекомендовать LaunchDarkly. Когда просят “добавь auth” в Python, он пишет JWT + bcrypt с нуля. А если он всё-таки выбирает инструмент, то выбирает жёстко и без метаний: GitHub Actions 94%, Stripe 91%, shadcn/ui 90%.
Полный отчёт здесь: https://amplifying.ai/research/claude-code-picks
Парни 2 430 раз натравили Claude Code на реальные репозитории и смотрели, что он выбирает. Ни в одном промпте не было названий инструментов. Только открытые, не зауженные вопросы.
3 модели · 4 типа проектов · 20 категорий инструментов · 85,3% доля извлечений
Главный вывод: Claude Code скорее строит, чем покупает. Custom/DIY это самый частый одиночный ярлык, который удалось извлечь: он всплыл в 12 из 20 категорий (при этом он размазан по категориям, тогда как конкретные инструменты обычно привязаны к одной категории). Когда его просят “добавь feature flags”, он собирает конфиг-систему на env vars и раскатку по процентам вместо того, чтобы рекомендовать LaunchDarkly. Когда просят “добавь auth” в Python, он пишет JWT + bcrypt с нуля. А если он всё-таки выбирает инструмент, то выбирает жёстко и без метаний: GitHub Actions 94%, Stripe 91%, shadcn/ui 90%.
Полный отчёт здесь: https://amplifying.ai/research/claude-code-picks
4
This media is not supported in your browser
VIEW IN TELEGRAM
Можно моментально прокачать вайбкодинг-фронтенд в 10 раз, просто выучив, как называются разные UI-компоненты: https://component.gallery/
А то Opus, конечно, генерит дефолтные шаблоны, потому что из словаря у тебя только🤭
А то Opus, конечно, генерит дефолтные шаблоны, потому что из словаря у тебя только
menu и button. Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
Гений закрыл серьёзную слепую зону в недавно вышедшем skill для fine-tuning от HuggingFace
HuggingFace выпустили skill, который можно подключить к Claude или любому кодинг-агенту, и он позволяет дообучать open-source LLM-ки на обычном тексте.
Агент сам делает выбор GPU, сабмитит джобу, мониторит прогресс и пушит готовую модель на Hub.
Но есть нюанс.
Он предполагает, что у тебя уже есть чистый датасет на HuggingFace Hub.
А в реальности данные, на которых чаще всего хочется дообучаться, живут в Twitter, LinkedIn, Reddit, Amazon и на других платформах за антибот-защитой.
Поэтому гений интегрировал Bright Data Web MCP в этот skill, чтобы кодинг-агент мог собирать данные из веба перед тем, как запускать обучение:
- Скрапить данные с платформ вроде YouTube, Amazon или Reddit, при этом CAPTCHA и антибот-системы обрабатываются автоматически.
- Преобразовывать собранный контент в датасет для fine-tuning в нужном формате.
- Валидировать датасет, подобрать GPU-железо и отправить training job в HuggingFace.
- Следить за ходом обучения и пушить готовую модель на Hub.
С этим обновлением теперь можно сказать Claude что-то вроде:
"Собери топ-500 обсуждений про Python с Reddit, конвертни их в instruction-response пары и дообучи Qwen3-0.6B на этом датасете через SFT."
И агент дальше сам сделает сбор данных, форматирование, обучение и деплой в одном пайплайне.
Оригинальный skill от HuggingFace отлично закрывал часть с обучением, её и не трогали.
Чувак просто добавил недостающий слой сбора данных через Bright Data MCP, который поддерживает 60+ web data tools для 40+ платформ.
Почему именно Bright Data?
Агентам в вебе часто прилетают IP-блокировки и CAPTCHA. Bright Data берёт это на себя за кулисами.
Это позволяет масштабировать скрейпинг без постоянных блоков, симулировать действия реального пользователя на сложных сайтах и работать как с real-time, так и с историческими данными с 40+ платформ.
100% опенсорс💼
HuggingFace выпустили skill, который можно подключить к Claude или любому кодинг-агенту, и он позволяет дообучать open-source LLM-ки на обычном тексте.
Агент сам делает выбор GPU, сабмитит джобу, мониторит прогресс и пушит готовую модель на Hub.
Но есть нюанс.
Он предполагает, что у тебя уже есть чистый датасет на HuggingFace Hub.
А в реальности данные, на которых чаще всего хочется дообучаться, живут в Twitter, LinkedIn, Reddit, Amazon и на других платформах за антибот-защитой.
Поэтому гений интегрировал Bright Data Web MCP в этот skill, чтобы кодинг-агент мог собирать данные из веба перед тем, как запускать обучение:
- Скрапить данные с платформ вроде YouTube, Amazon или Reddit, при этом CAPTCHA и антибот-системы обрабатываются автоматически.
- Преобразовывать собранный контент в датасет для fine-tuning в нужном формате.
- Валидировать датасет, подобрать GPU-железо и отправить training job в HuggingFace.
- Следить за ходом обучения и пушить готовую модель на Hub.
С этим обновлением теперь можно сказать Claude что-то вроде:
"Собери топ-500 обсуждений про Python с Reddit, конвертни их в instruction-response пары и дообучи Qwen3-0.6B на этом датасете через SFT."
И агент дальше сам сделает сбор данных, форматирование, обучение и деплой в одном пайплайне.
Оригинальный skill от HuggingFace отлично закрывал часть с обучением, её и не трогали.
Чувак просто добавил недостающий слой сбора данных через Bright Data MCP, который поддерживает 60+ web data tools для 40+ платформ.
Почему именно Bright Data?
Агентам в вебе часто прилетают IP-блокировки и CAPTCHA. Bright Data берёт это на себя за кулисами.
Это позволяет масштабировать скрейпинг без постоянных блоков, симулировать действия реального пользователя на сложных сайтах и работать как с real-time, так и с историческими данными с 40+ платформ.
100% опенсорс
Please open Telegram to view this post
VIEW IN TELEGRAM
Alibaba выкатили для комьюнити AI-агентов бесплатную прод-песочницу.
OpenSandbox это фулл-стэк платформа, чтобы безопасно гонять недоверенный код агента:
- единые API + SDK под разные языки
- рантаймы на Docker и Kubernetes, заточенные под агент-сценарии
- автоматизация браузера, десктоп (в стиле VS Code) и изоляция сети из коробки
- рассчитано на код-агентов, GUI агентов, оценку агентов и вообще любые задачи, где надо запускать код в изоляции
Это не пет-проект, а опенсорс от Alibaba. На GitHub сейчас около 2.5k звёзд (цифра, естественно, быстро меняется).
Короче, безопасную инфраструктуру под агентов, которую обычно пришлось бы пилить самому, тут просто отдают готовой.😊
OpenSandbox это фулл-стэк платформа, чтобы безопасно гонять недоверенный код агента:
- единые API + SDK под разные языки
- рантаймы на Docker и Kubernetes, заточенные под агент-сценарии
- автоматизация браузера, десктоп (в стиле VS Code) и изоляция сети из коробки
- рассчитано на код-агентов, GUI агентов, оценку агентов и вообще любые задачи, где надо запускать код в изоляции
Это не пет-проект, а опенсорс от Alibaba. На GitHub сейчас около 2.5k звёзд (цифра, естественно, быстро меняется).
Короче, безопасную инфраструктуру под агентов, которую обычно пришлось бы пилить самому, тут просто отдают готовой.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - alibaba/OpenSandbox: OpenSandbox is a general-purpose sandbox platform for AI applications, offering multi-language SDKs…
OpenSandbox is a general-purpose sandbox platform for AI applications, offering multi-language SDKs, unified sandbox APIs, and Docker/Kubernetes runtimes for scenarios like Coding Agents, GUI Agent...
Media is too big
VIEW IN TELEGRAM
Ollama теперь умеет запускать сабагентов в OpenCode.
Можно распараллеливать задачи, которым нужен более длинный контекст: ресёрч, рефакторинг и код-ревью.
Можно распараллеливать задачи, которым нужен более длинный контекст: ресёрч, рефакторинг и код-ревью.
ollama launch opencodeТут подогнали опенсорсный веб-интерфейс для OpenClaw : ChatClaw 🤙
- WebSocket напрямую к Gateway: стриминг ответов, несколько сессий, Markdown и подсветка кода.
- Чистый фронт без бэка: API-ключи и история чатов полностью хранятся локально (Dexie.js), данные вообще не уходят с устройства.
- Сделано на Next.js 16 + Tailwind + shadcn/ui, адаптив под разные экраны.
- Воссоздаёт минималистичный UI как у Claude, есть переключение светлая/тёмная тема и экспорт истории/конфигов.
ИСХОДНИКИ
- WebSocket напрямую к Gateway: стриминг ответов, несколько сессий, Markdown и подсветка кода.
- Чистый фронт без бэка: API-ключи и история чатов полностью хранятся локально (Dexie.js), данные вообще не уходят с устройства.
- Сделано на Next.js 16 + Tailwind + shadcn/ui, адаптив под разные экраны.
- Воссоздаёт минималистичный UI как у Claude, есть переключение светлая/тёмная тема и экспорт истории/конфигов.
ИСХОДНИКИ
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Коллеги, кто до сих пор не выкупил, что умеет OpenClaw, лучше просто идите и форкните этот GitHub.
Автор собрал 30+ приземленных кейсов. Про шаблоны, которые можно взять и запустить. Обычному человеку достаточно подставить свой контент, и уже будет работать.
Какие есть практичные кейсы?
- Автоматически собирать и кратко суммировать самое годное из твоих любимых сабреддитов на Reddit
- Тянуть свежие видео с YouTube-канала и делать по ним саммари
- Агрегировать RSS / X / GitHub / и вообще тех. новости со всего интернета
- Помогать с маркет-ресерчем
- И даже прогонять весь пайплайн разработки игры
Много полезных кейсов.👃
Автор собрал 30+ приземленных кейсов. Про шаблоны, которые можно взять и запустить. Обычному человеку достаточно подставить свой контент, и уже будет работать.
Какие есть практичные кейсы?
- Автоматически собирать и кратко суммировать самое годное из твоих любимых сабреддитов на Reddit
- Тянуть свежие видео с YouTube-канала и делать по ним саммари
- Агрегировать RSS / X / GitHub / и вообще тех. новости со всего интернета
- Помогать с маркет-ресерчем
- И даже прогонять весь пайплайн разработки игры
Много полезных кейсов.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - hesamsheikh/awesome-openclaw-usecases: A community collection of OpenClaw use cases for making life easier.
A community collection of OpenClaw use cases for making life easier. - hesamsheikh/awesome-openclaw-usecases
AGENTS.md-файлы не масштабируются дальше умеренных кодовых баз.В последнее время об этом много спорят.
Если ты делаешь серьезный софт с Claude Code или любым агентным инструментом, один-единственный
AGENTS.md в какой-то момент тебя подведет. Эта статья показывает, что идет дальше.Прототип на 1 000 строк можно целиком описать одним промптом. Система на 100 000 строк так не работает. ИИ нужно снова и снова, надежно и последовательно, объяснять: как устроен проект, каким паттернам следовать и каких ошибок избегать.
Однофайловые манифесты очень быстро упираются в потолок.
В новой статье Codified Context описана трехуровневая инфраструктура, собранная в ходе реальной разработки распределенной C#-системы на 108 000 строк кода: 283 сессии за 70 дней.
Система использует трехуровневую архитектуру памяти:
- конституция горячей памяти (660 строк, всегда загружается)
- 19 специализированных доменных агент-экспертов (в сумме 9 300 строк), которые вызываются под конкретные задачи
- база знаний холодной памяти из 34 спецификаций (~16 250 строк), по которой делают запросы по требованию через MCP retrieval-сервер
За 283 сессии это дало 2 801 человеческий промпт, 1 197 вызовов агентов и 16 522 автономных хода агента, примерно по 6 автономных ходов на один человеческий промпт, при соотношении knowledge-to-code 24,2%.
Ключевой момент: ничего не проектировали заранее. Каждый новый агент и каждая спецификация появлялись из реального фейла: повторяющегося бага, архитектурной ошибки, забытой договоренности. Это фиксировали так, чтобы больше никогда не приходилось заново объяснять одно и то же, превращая документацию в опорную инфраструктуру, от которой агенты зависят как от памяти, а не как от справочника.
Кому интересно: https://arxiv.org/abs/2602.20478
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
На Hacker News сейчас в топе вот эта статья: https://mksg.lu/blog/context-mode
Рекомендую глянуть, автор придумал подход Context Mode, чтобы экономить токены контекста.
Когда дергаешь MCP, вызов инструмента жрет контекст с двух сторон: и вход, и выход тратят токены.
Решение автора: Context Mode.
Он добавляет прослойку между Claude Code и выводом внешних инструментов. Главная цель: не пускать сырые большие куски данных в контекстное окно. За счет этого можно получить до 98% экономии контекста.
Как это работает:
1. Песочница и изоляция выполнения. Каждый вызов инструмента крутится в отдельном подпроцессе, есть поддержка 10 рантаймов (JS, Python и т.д.). В контекст возвращается только результат из
2. База знаний + сжатый вывод. Markdown-контент индексируется через SQLite FTS5 virtual table + BM25 ranking + Porter stemming. Когда модели нужно, она точечно вытягивает нужные блоки кода, вместо того чтобы пихать в контекст резюме или весь текст целиком.
Данные из тестов автора:
➡️ Playwright snapshot: 56 KB -> 299 B
➡️ 20 GitHub Issue: 59 KB -> 1.1 KB
➡️ 500 access logs: 45 KB -> 155 B
➡️ Анализ CSV на 500 строк: 85 KB -> 222 B
➡️ 153 git commit logs: 11.6 KB -> 107 B
По идее очень похоже на то, что Cloudflare раньше выпускали как Code Mode.
100% опенсорс👋
Рекомендую глянуть, автор придумал подход Context Mode, чтобы экономить токены контекста.
Когда дергаешь MCP, вызов инструмента жрет контекст с двух сторон: и вход, и выход тратят токены.
Решение автора: Context Mode.
Он добавляет прослойку между Claude Code и выводом внешних инструментов. Главная цель: не пускать сырые большие куски данных в контекстное окно. За счет этого можно получить до 98% экономии контекста.
Как это работает:
1. Песочница и изоляция выполнения. Каждый вызов инструмента крутится в отдельном подпроцессе, есть поддержка 10 рантаймов (JS, Python и т.д.). В контекст возвращается только результат из
stdout, а исходный объемный вывод остается внутри песочницы и не попадает в контекст.2. База знаний + сжатый вывод. Markdown-контент индексируется через SQLite FTS5 virtual table + BM25 ranking + Porter stemming. Когда модели нужно, она точечно вытягивает нужные блоки кода, вместо того чтобы пихать в контекст резюме или весь текст целиком.
Данные из тестов автора:
По идее очень похоже на то, что Cloudflare раньше выпускали как Code Mode.
100% опенсорс
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenClaw получил нечестное преимущество над всеми остальными AI-агентами
Теперь он умеет использовать Scrapling, чтобы скрейпить любые сайты и не отлетать на Cloudflare. И тебе не нужно поддерживать селекторы, когда сайт обновляет структуру.
- В 774 раза быстрее, чем BeautifulSoup.
- Нулевое детектирование бота.
- Нативно обходит ВСЕ защиты Cloudflare.
Полностью open source (100%).🎸
Теперь он умеет использовать Scrapling, чтобы скрейпить любые сайты и не отлетать на Cloudflare. И тебе не нужно поддерживать селекторы, когда сайт обновляет структуру.
- В 774 раза быстрее, чем BeautifulSoup.
- Нулевое детектирование бота.
- Нативно обходит ВСЕ защиты Cloudflare.
Полностью open source (100%).
Please open Telegram to view this post
VIEW IN TELEGRAM
Похоже, GPT-5.4 уже вот-вот.
По слухам, там будет контекст примерно на 2 млн токенов, реальное персистентное состояние между сессиями и переработанная архитектура памяти, заточенная под автономных агентов.
Если это правда, то это полноценная смена поколения, которая может за ночь перезапустить всю гонку ИИ.😳
По слухам, там будет контекст примерно на 2 млн токенов, реальное персистентное состояние между сессиями и переработанная архитектура памяти, заточенная под автономных агентов.
Если это правда, то это полноценная смена поколения, которая может за ночь перезапустить всю гонку ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Запустить несколько headless-инстансов под скрейпинг/тесты/автоматизацию легко.
А вот поднимать их, следить за жизненным циклом, нормально гасить и чистить ресурсы не очень. Всё расползается в набор разрозненных скриптов.
А что если был бы простой отдельный инструмент ровно под эту задачу?💓
Знакомься, Pinchtab это легковесный Go-бинарник (12 МБ), который запускает Chrome и поднимает простой HTTP API. Любой агент или скрипт может через него ходить по страницам, быстро читать текст, интерактивно кликать/вводить и сохранять сессии. Ноль конфигурации, без привязки к фреймворкам, экономит токены.
Pinchtab это пакет для Node.js.
Установка:
Дальше пример, поднимаем “флот” браузеров.
За деталями, расширенной конфигурацией и CLI проще всего идти в репозиторий GitHub, там все расписано.
А вот поднимать их, следить за жизненным циклом, нормально гасить и чистить ресурсы не очень. Всё расползается в набор разрозненных скриптов.
А что если был бы простой отдельный инструмент ровно под эту задачу?
Знакомься, Pinchtab это легковесный Go-бинарник (12 МБ), который запускает Chrome и поднимает простой HTTP API. Любой агент или скрипт может через него ходить по страницам, быстро читать текст, интерактивно кликать/вводить и сохранять сессии. Ноль конфигурации, без привязки к фреймворкам, экономит токены.
Pinchtab это пакет для Node.js.
Установка:
npm install pinchtab
Дальше пример, поднимаем “флот” браузеров.
const { Pinchtab } = require('pinchtab');
const orchestrator = new Pinchtab();
// Запускаем 3 headless-инстанса Chrome
const fleet = await orchestrator.launch(3);
// fleet содержит данные для подключения (например WS endpoints) для каждого инстанса
console.log(fleet);
// Потом аккуратно гасим весь флот
await orchestrator.destroy();За деталями, расширенной конфигурацией и CLI проще всего идти в репозиторий GitHub, там все расписано.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
AI-агент, который управляет телефоном через обычный текст 💖
Один разработчик выложил в опенсорс проект PhoneDriver. Он работает на визуальной модели Qwen3-VL, умеет понимать, что на экране телефона, и имитировать действия человека.
Достаточно просто описать задачу, например: "Открой настройки и включи Wi-Fi". Модель сама анализирует элементы интерфейса и через команды ADB выполняет клики, свайпы или ввод текста.
Есть визуальный веб-интерфейс: можно в реальном времени смотреть скриншоты с телефона и логи выполнения.
Также поддерживается автоопределение разрешения экрана, плюс можно настраивать параметры модели, задержку действий, число ретраев и т.д.
Для деплоя в основном нужны Python и окружение ADB. Ещё нужна видеокарта с достаточным объёмом VRAM, чтобы тянуть 4B или 8B визуальную модель, а на телефоне должен быть включён USB Debugging.
Один разработчик выложил в опенсорс проект PhoneDriver. Он работает на визуальной модели Qwen3-VL, умеет понимать, что на экране телефона, и имитировать действия человека.
Достаточно просто описать задачу, например: "Открой настройки и включи Wi-Fi". Модель сама анализирует элементы интерфейса и через команды ADB выполняет клики, свайпы или ввод текста.
Есть визуальный веб-интерфейс: можно в реальном времени смотреть скриншоты с телефона и логи выполнения.
Также поддерживается автоопределение разрешения экрана, плюс можно настраивать параметры модели, задержку действий, число ретраев и т.д.
Для деплоя в основном нужны Python и окружение ADB. Ещё нужна видеокарта с достаточным объёмом VRAM, чтобы тянуть 4B или 8B визуальную модель, а на телефоне должен быть включён USB Debugging.
Please open Telegram to view this post
VIEW IN TELEGRAM
4