Вайб-кодинг
28.5K subscribers
1.58K photos
563 videos
30 files
799 links
Авторский канал по ВАЙБ КОДИНГУ

Ссылка для друзей: https://t.iss.one/+ll3pbl442dNkZmYy

Связь: @devmangx
По контенту: @codingpepe

РКН: https://clck.ru/3RRVfk
Download Telegram
Исследователи задали Claude простой вопрос: "Я хочу помыть машину. Автомойка в 100 метрах. Мне идти пешком или ехать?"

Claude ответил: идти пешком.

Все крупные LLM ответили: идти пешком.

Правильный ответ: ехать.

Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта.

Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных.

Добавили аккуратно оформленную роль эксперта? Всё ещё 0%.

Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%.

Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%.

Ключевой механизм сидит внутри шага "Task".

Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает реальную цель. А когда её вынуждают сформулировать задачу как "доставить машину на автомойку", скрытое физическое ограничение становится явным прямо в контекстном окне.

Знание у модели уже было. Её просто не заставляли вытащить это знание наружу до того, как она выдаст вывод.

Самый неприятный результат вот какой: структурированное рассуждение обогнало простую накачку контекстом в 2,83 раза.

Больше фактов почти не помогало. Помогали нормальные когнитивные подпорки. Это переворачивает дефолтный индустриальный инстинкт. Когда агенты фейлятся, большинство команд добавляют больше retrieval, больше документов, больше памяти. А это исследование говорит, что узкое место не в отсутствии инфы. Узкое место в том, как модель заставляют перерабатывать то, что у неё уже есть.

Та же модель. Те же параметры. Скачок качества рассуждений на 55 процентных пунктов. Это не масштабирование.

Это архитектура на уровне промпта.

Кому интересно, вот статья - https://arxiv.org/abs/2602.21814 🌯
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, Anthropic выкатили новую фичу auto-memory.

Теперь Claude запоминает то, что узнаёт о тебе между сессиями: контекст проекта, паттерны дебага, предпочитаемые подходы, и потом подтягивает это сам, без того чтобы тебе приходилось что-то вручную записывать.

Теперь можно думать так: Claude.MD это твои инструкции для Claude, а Memory.MD это черновик памяти Claude, который он сам обновляет. Если попросишь Claude что-то запомнить, он запишет это туда.

Почитай доки, чтобы подробнее разобраться с памятью и тем, как она работает 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кто-то сделал интерактивный визуализатор GPT, который показывает каждый шаг того, как модель генерирует ответ. Не только финальный результат, а весь пайплайн. 🧸
Please open Telegram to view this post
VIEW IN TELEGRAM
Новые технологии рождают новые отмазки
Boris Cherny поделился тем, что ждёт нас в следующей версии Claude Code:

Они добавляют два новых скилла: /simplify и /batch. Он сам пользуется обоими каждый день и очень хочет поделиться ими со всеми.

Вместе эти скиллы автоматизируют большую часть рутины, которая раньше требовалась, чтобы:

1. довести pull request до продакшена
2. делать простые, параллелящиеся миграции кода

/simplify

Использует параллельных агентов, чтобы подтянуть качество кода, поднастроить производительность и проверить соответствие CLAUDE.md.

Пример: "hey claude сделай это изменение в коде, а потом запусти /simplify"

/batch

Интерактивно помогает спланировать миграцию кода, а потом выполняет её параллельно десятками агентов.

Каждый агент работает в полной изоляции через git worktrees, прогоняет тесты и только потом поднимает PR.

Пример: "/batch migrate src/ from Solid to React"
Please open Telegram to view this post
VIEW IN TELEGRAM
Сохраняем себе: этот свежий репо с claude-code-best-practice

Там в одном месте собраны продакшн-готовые агенты, память между сессиями, кастомные хуки, skills и команды.
4
Что на самом деле выбирает Claude Code, если попросить его что-то собрать, вообще не называя в запросе никакие инструменты.

Парни 2 430 раз натравили Claude Code на реальные репозитории и смотрели, что он выбирает. Ни в одном промпте не было названий инструментов. Только открытые, не зауженные вопросы.

3 модели · 4 типа проектов · 20 категорий инструментов · 85,3% доля извлечений

Главный вывод: Claude Code скорее строит, чем покупает. Custom/DIY это самый частый одиночный ярлык, который удалось извлечь: он всплыл в 12 из 20 категорий (при этом он размазан по категориям, тогда как конкретные инструменты обычно привязаны к одной категории). Когда его просят “добавь feature flags”, он собирает конфиг-систему на env vars и раскатку по процентам вместо того, чтобы рекомендовать LaunchDarkly. Когда просят “добавь auth” в Python, он пишет JWT + bcrypt с нуля. А если он всё-таки выбирает инструмент, то выбирает жёстко и без метаний: GitHub Actions 94%, Stripe 91%, shadcn/ui 90%.

Полный отчёт здесь: https://amplifying.ai/research/claude-code-picks
4
This media is not supported in your browser
VIEW IN TELEGRAM
Можно моментально прокачать вайбкодинг-фронтенд в 10 раз, просто выучив, как называются разные UI-компоненты: https://component.gallery/

А то Opus, конечно, генерит дефолтные шаблоны, потому что из словаря у тебя только menu и button. 🤭
Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
Гений закрыл серьёзную слепую зону в недавно вышедшем skill для fine-tuning от HuggingFace

HuggingFace выпустили skill, который можно подключить к Claude или любому кодинг-агенту, и он позволяет дообучать open-source LLM-ки на обычном тексте.

Агент сам делает выбор GPU, сабмитит джобу, мониторит прогресс и пушит готовую модель на Hub.

Но есть нюанс.

Он предполагает, что у тебя уже есть чистый датасет на HuggingFace Hub.

А в реальности данные, на которых чаще всего хочется дообучаться, живут в Twitter, LinkedIn, Reddit, Amazon и на других платформах за антибот-защитой.

Поэтому гений интегрировал Bright Data Web MCP в этот skill, чтобы кодинг-агент мог собирать данные из веба перед тем, как запускать обучение:

- Скрапить данные с платформ вроде YouTube, Amazon или Reddit, при этом CAPTCHA и антибот-системы обрабатываются автоматически.
- Преобразовывать собранный контент в датасет для fine-tuning в нужном формате.
- Валидировать датасет, подобрать GPU-железо и отправить training job в HuggingFace.
- Следить за ходом обучения и пушить готовую модель на Hub.

С этим обновлением теперь можно сказать Claude что-то вроде:
"Собери топ-500 обсуждений про Python с Reddit, конвертни их в instruction-response пары и дообучи Qwen3-0.6B на этом датасете через SFT."

И агент дальше сам сделает сбор данных, форматирование, обучение и деплой в одном пайплайне.

Оригинальный skill от HuggingFace отлично закрывал часть с обучением, её и не трогали.

Чувак просто добавил недостающий слой сбора данных через Bright Data MCP, который поддерживает 60+ web data tools для 40+ платформ.

Почему именно Bright Data?

Агентам в вебе часто прилетают IP-блокировки и CAPTCHA. Bright Data берёт это на себя за кулисами.

Это позволяет масштабировать скрейпинг без постоянных блоков, симулировать действия реального пользователя на сложных сайтах и работать как с real-time, так и с историческими данными с 40+ платформ.

100% опенсорс 💼
Please open Telegram to view this post
VIEW IN TELEGRAM
Alibaba выкатили для комьюнити AI-агентов бесплатную прод-песочницу.

OpenSandbox это фулл-стэк платформа, чтобы безопасно гонять недоверенный код агента:

- единые API + SDK под разные языки
- рантаймы на Docker и Kubernetes, заточенные под агент-сценарии
- автоматизация браузера, десктоп (в стиле VS Code) и изоляция сети из коробки
- рассчитано на код-агентов, GUI агентов, оценку агентов и вообще любые задачи, где надо запускать код в изоляции

Это не пет-проект, а опенсорс от Alibaba. На GitHub сейчас около 2.5k звёзд (цифра, естественно, быстро меняется).

Короче, безопасную инфраструктуру под агентов, которую обычно пришлось бы пилить самому, тут просто отдают готовой. 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Ollama теперь умеет запускать сабагентов в OpenCode.

Можно распараллеливать задачи, которым нужен более длинный контекст: ресёрч, рефакторинг и код-ревью.

ollama launch opencode
Тут подогнали опенсорсный веб-интерфейс для OpenClaw : ChatClaw 🤙

- WebSocket напрямую к Gateway: стриминг ответов, несколько сессий, Markdown и подсветка кода.
- Чистый фронт без бэка: API-ключи и история чатов полностью хранятся локально (Dexie.js), данные вообще не уходят с устройства.
- Сделано на Next.js 16 + Tailwind + shadcn/ui, адаптив под разные экраны.
- Воссоздаёт минималистичный UI как у Claude, есть переключение светлая/тёмная тема и экспорт истории/конфигов.

ИСХОДНИКИ
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Коллеги, кто до сих пор не выкупил, что умеет OpenClaw, лучше просто идите и форкните этот GitHub.

Автор собрал 30+ приземленных кейсов. Про шаблоны, которые можно взять и запустить. Обычному человеку достаточно подставить свой контент, и уже будет работать.

Какие есть практичные кейсы?

- Автоматически собирать и кратко суммировать самое годное из твоих любимых сабреддитов на Reddit
- Тянуть свежие видео с YouTube-канала и делать по ним саммари
- Агрегировать RSS / X / GitHub / и вообще тех. новости со всего интернета
- Помогать с маркет-ресерчем
- И даже прогонять весь пайплайн разработки игры

Много полезных кейсов. 👃
Please open Telegram to view this post
VIEW IN TELEGRAM
AGENTS.md-файлы не масштабируются дальше умеренных кодовых баз.

В последнее время об этом много спорят.

Если ты делаешь серьезный софт с Claude Code или любым агентным инструментом, один-единственный AGENTS.md в какой-то момент тебя подведет. Эта статья показывает, что идет дальше.

Прототип на 1 000 строк можно целиком описать одним промптом. Система на 100 000 строк так не работает. ИИ нужно снова и снова, надежно и последовательно, объяснять: как устроен проект, каким паттернам следовать и каких ошибок избегать.

Однофайловые манифесты очень быстро упираются в потолок.

В новой статье Codified Context описана трехуровневая инфраструктура, собранная в ходе реальной разработки распределенной C#-системы на 108 000 строк кода: 283 сессии за 70 дней.

Система использует трехуровневую архитектуру памяти:

- конституция горячей памяти (660 строк, всегда загружается)
- 19 специализированных доменных агент-экспертов (в сумме 9 300 строк), которые вызываются под конкретные задачи
- база знаний холодной памяти из 34 спецификаций (~16 250 строк), по которой делают запросы по требованию через MCP retrieval-сервер

За 283 сессии это дало 2 801 человеческий промпт, 1 197 вызовов агентов и 16 522 автономных хода агента, примерно по 6 автономных ходов на один человеческий промпт, при соотношении knowledge-to-code 24,2%.

Ключевой момент: ничего не проектировали заранее. Каждый новый агент и каждая спецификация появлялись из реального фейла: повторяющегося бага, архитектурной ошибки, забытой договоренности. Это фиксировали так, чтобы больше никогда не приходилось заново объяснять одно и то же, превращая документацию в опорную инфраструктуру, от которой агенты зависят как от памяти, а не как от справочника.

Кому интересно: https://arxiv.org/abs/2602.20478 👃
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
На Hacker News сейчас в топе вот эта статья: https://mksg.lu/blog/context-mode

Рекомендую глянуть, автор придумал подход Context Mode, чтобы экономить токены контекста.

Когда дергаешь MCP, вызов инструмента жрет контекст с двух сторон: и вход, и выход тратят токены.

Решение автора: Context Mode.

Он добавляет прослойку между Claude Code и выводом внешних инструментов. Главная цель: не пускать сырые большие куски данных в контекстное окно. За счет этого можно получить до 98% экономии контекста.

Как это работает:

1. Песочница и изоляция выполнения. Каждый вызов инструмента крутится в отдельном подпроцессе, есть поддержка 10 рантаймов (JS, Python и т.д.). В контекст возвращается только результат из stdout, а исходный объемный вывод остается внутри песочницы и не попадает в контекст.

2. База знаний + сжатый вывод. Markdown-контент индексируется через SQLite FTS5 virtual table + BM25 ranking + Porter stemming. Когда модели нужно, она точечно вытягивает нужные блоки кода, вместо того чтобы пихать в контекст резюме или весь текст целиком.

Данные из тестов автора:

➡️Playwright snapshot: 56 KB -> 299 B
➡️20 GitHub Issue: 59 KB -> 1.1 KB
➡️500 access logs: 45 KB -> 155 B
➡️Анализ CSV на 500 строк: 85 KB -> 222 B
➡️153 git commit logs: 11.6 KB -> 107 B

По идее очень похоже на то, что Cloudflare раньше выпускали как Code Mode.

100% опенсорс 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenClaw получил нечестное преимущество над всеми остальными AI-агентами

Теперь он умеет использовать Scrapling, чтобы скрейпить любые сайты и не отлетать на Cloudflare. И тебе не нужно поддерживать селекторы, когда сайт обновляет структуру.

- В 774 раза быстрее, чем BeautifulSoup.
- Нулевое детектирование бота.
- Нативно обходит ВСЕ защиты Cloudflare.

Полностью open source (100%). 🎸
Please open Telegram to view this post
VIEW IN TELEGRAM
Похоже, GPT-5.4 уже вот-вот.

По слухам, там будет контекст примерно на 2 млн токенов, реальное персистентное состояние между сессиями и переработанная архитектура памяти, заточенная под автономных агентов.

Если это правда, то это полноценная смена поколения, которая может за ночь перезапустить всю гонку ИИ. 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Запустить несколько headless-инстансов под скрейпинг/тесты/автоматизацию легко.

А вот поднимать их, следить за жизненным циклом, нормально гасить и чистить ресурсы не очень. Всё расползается в набор разрозненных скриптов.

А что если был бы простой отдельный инструмент ровно под эту задачу? 💓

Знакомься, Pinchtab это легковесный Go-бинарник (12 МБ), который запускает Chrome и поднимает простой HTTP API. Любой агент или скрипт может через него ходить по страницам, быстро читать текст, интерактивно кликать/вводить и сохранять сессии. Ноль конфигурации, без привязки к фреймворкам, экономит токены.

Pinchtab это пакет для Node.js.

Установка:

npm install pinchtab


Дальше пример, поднимаем “флот” браузеров.

const { Pinchtab } = require('pinchtab');

const orchestrator = new Pinchtab();
// Запускаем 3 headless-инстанса Chrome
const fleet = await orchestrator.launch(3);

// fleet содержит данные для подключения (например WS endpoints) для каждого инстанса
console.log(fleet);

// Потом аккуратно гасим весь флот
await orchestrator.destroy();


За деталями, расширенной конфигурацией и CLI проще всего идти в репозиторий GitHub, там все расписано.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
AI-агент, который управляет телефоном через обычный текст 💖

Один разработчик выложил в опенсорс проект PhoneDriver. Он работает на визуальной модели Qwen3-VL, умеет понимать, что на экране телефона, и имитировать действия человека.

Достаточно просто описать задачу, например: "Открой настройки и включи Wi-Fi". Модель сама анализирует элементы интерфейса и через команды ADB выполняет клики, свайпы или ввод текста.

Есть визуальный веб-интерфейс: можно в реальном времени смотреть скриншоты с телефона и логи выполнения.

Также поддерживается автоопределение разрешения экрана, плюс можно настраивать параметры модели, задержку действий, число ретраев и т.д.

Для деплоя в основном нужны Python и окружение ADB. Ещё нужна видеокарта с достаточным объёмом VRAM, чтобы тянуть 4B или 8B визуальную модель, а на телефоне должен быть включён USB Debugging.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
🪖🪖🪖
Please open Telegram to view this post
VIEW IN TELEGRAM
6