Anthropic Claude Code: самое полезное с семинара
Сходил на семинар по Claude Code от его разработчиков, вот что мне запомнилось:
🧠 Hot keys
•
•
•
•
•
•
•
🧩 MCP-экосистема
• Сотни серверов на GitHub → modelcontextprotocol/servers
• Puppeteer/Playwright — пишешь код и сразу тестируешь в реальном браузере
• Context7 — актуальные доки по популярным SDK и библиотекам
• SQL MCPs — SQLite/Postgres/Supabase для прямого доступа к БД
• Figma MCP — агент читает/проверяет макеты в Figma
📄 Claude.md
• Работает и на уровне пользователя (~/.claude), и локально в проекте (./claude) — задаёт поведение/гайды.
⚡ Свои /custom-commands
Сохраняем часто используемые промпты и вызываем как /optimize:
Сходил на семинар по Claude Code от его разработчиков, вот что мне запомнилось:
🧠 Hot keys
•
Shift+Tab
— Planning mode (Claude сначала строит план, потом действует)•
Esc Esc
— «откат» шага диалога•
think / think hard / ultrathink
— явно просим больше reasoning budget•
!bash
— запускаем shell-команды прямо из чата•
@mention
— подкидываем файлы в контекст•
Drag & drop
— кидаем скриншоты/изображения•
Ctrl+B
— запуск Claude Code в фоне🧩 MCP-экосистема
• Сотни серверов на GitHub → modelcontextprotocol/servers
• Puppeteer/Playwright — пишешь код и сразу тестируешь в реальном браузере
• Context7 — актуальные доки по популярным SDK и библиотекам
• SQL MCPs — SQLite/Postgres/Supabase для прямого доступа к БД
• Figma MCP — агент читает/проверяет макеты в Figma
📄 Claude.md
• Работает и на уровне пользователя (~/.claude), и локально в проекте (./claude) — задаёт поведение/гайды.
⚡ Свои /custom-commands
Сохраняем часто используемые промпты и вызываем как /optimize:
# Проектный уровень
mkdir -p ./claude/commands
printf "Analyze this code for performance issues and suggest optimizations.\n" > ./claude/commands/optimize.md
# Пользовательский уровень (глобально)
mkdir -p ~/.claude/commands
printf "Analyze this code for performance issues and suggest optimizations.\n" > ~/.claude/commands/optimize.md
2❤21🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
🤖🧪 ChatGPT-Agent хорошо справляется с QA тестированием
Я взял ChatGPT-агента и дал ему задачу «как у живого тестера»: логиниться, загружать данные, проверять графики и экспорт. Он не просто кликает скриптом — он смотрит, думает и меняет план, когда что-то идёт не так.
☕️ Утро. Я нажимаю «Запустить проверку» и иду делать кофе.
Агент заходит в мое веб-приложение, заливает CSV, включает оверлеи, пробует экспорт. Где-то зависает спиннер - он не паникует, меняет маршрут и продолжает проверять остальное.
🐶 Я выхожу гулять с собакой. В это время агент собирает улики: скрины, логи и тп. Видит тонкости - «фича включилась, но данных нет» - и помечает это как задачу для другого AI агента.
📬 Возвращаюсь - на экране готовый отчёт:
— 3 проблемы с шагами «ожидал → получил»,
— ссылки на скрины/HAR,
— приоритеты и быстрые фиксы.
Я просто перетягиваю задачи в следующий диалог с Claude Code. Всё. Никаких «не воспроизводится».
🌇 Агент сделал рутину за меня; моё время ушло на решения (и отдых), а не на клики и скриншоты. По ощущениям, экономит по паре часов в день - минимум.
Не магия. Просто внимательный джуниор из кремния, который не устает.
Кстати, я думаю что готов к ограниченной бете, так что если вам есть что предсказывать (еду в кафе, номера в отеле, закупку продуктов в магазин и вообще что угодно) - пишите в комменты, дам доступ!
Я взял ChatGPT-агента и дал ему задачу «как у живого тестера»: логиниться, загружать данные, проверять графики и экспорт. Он не просто кликает скриптом — он смотрит, думает и меняет план, когда что-то идёт не так.
☕️ Утро. Я нажимаю «Запустить проверку» и иду делать кофе.
Агент заходит в мое веб-приложение, заливает CSV, включает оверлеи, пробует экспорт. Где-то зависает спиннер - он не паникует, меняет маршрут и продолжает проверять остальное.
🐶 Я выхожу гулять с собакой. В это время агент собирает улики: скрины, логи и тп. Видит тонкости - «фича включилась, но данных нет» - и помечает это как задачу для другого AI агента.
📬 Возвращаюсь - на экране готовый отчёт:
— 3 проблемы с шагами «ожидал → получил»,
— ссылки на скрины/HAR,
— приоритеты и быстрые фиксы.
Я просто перетягиваю задачи в следующий диалог с Claude Code. Всё. Никаких «не воспроизводится».
🌇 Агент сделал рутину за меня; моё время ушло на решения (и отдых), а не на клики и скриншоты. По ощущениям, экономит по паре часов в день - минимум.
Не магия. Просто внимательный джуниор из кремния, который не устает.
Кстати, я думаю что готов к ограниченной бете, так что если вам есть что предсказывать (еду в кафе, номера в отеле, закупку продуктов в магазин и вообще что угодно) - пишите в комменты, дам доступ!
🔥27❤8👍4
🔮📈 Prophet Arena
Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).
🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.
⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.
📊 Две оси
• 1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
• Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.
⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.
✅ Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.
Ссылка
Расскажите в комментариях что еще могут предсказывать LLM?
Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).
🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.
⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.
📊 Две оси
• 1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
• Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.
⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.
✅ Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.
Ссылка
Расскажите в комментариях что еще могут предсказывать LLM?
🔥12👍8❤5😱1
Визуальный разбор GPT-OSS 🧠⚙️
OpenAI выложила gpt-oss-20B и gpt-oss-120B - это MoE-модели с 128k контекстом и «ручкой» reasoning: low/medium/high. Плюс новый формат harmony для сообщений и тулколлов.
Зачем нам это сейчас 🔥
Впервые со времён GPT-2 у OpenAI появились LLM с открытыми весами: можно скачать веса, крутить локально, настраивать под свои пайплайны и политику данных.
Как все устроено простыми словами 🛠️
• Архитектура: трансформер с Mixture-of-Experts. В 120B — 128 экспертов, в 20B — 32, при этом на токен активны 4 (экономия времени/памяти без просадки качества на типичных задачах). Контекст — до ~128k токенов.
• Размер и железо: чекпоинты ≈ 60.8 GiB (120B) и 12.8 GiB (20B). Благодаря квантованию MXFP4 MoE-веса ужимаются так, что 120B помещается в 80 ГБ GPU, а 20B можно запускать от ~16 ГБ памяти.
• Формат harmony: «каналы» ответа — analysis (мышление/часть тулколлов), commentary (тулколлы), final (итог). Он нужен, чтобы модель корректно «думала» и вызывала инструменты.
• Reasoning modes: low/medium/high задаются в системном промпте и напрямую меняют бюджет размышлений: выше точность → дольше отвечает -> выше стоимость.
• Токенизатор: o200k_harmony—чуть аккуратнее с не-английскими символами/эмодзи, но датасет в основном англоязычный—держим это в голове для RU-кейсов.
Мини-пример: как «крутить ручку» рассуждений 🎚️
Так вы буквально указываете модели «думать средне». Для A/B можно сравнить low/medium/high по задержке и качеству на своей задаче..
Почему это важно в большом контексте 🌍
• Локальные агенты и приватность: 20B реально тянется на доступном железе; можно строить оффлайн-ассистентов с чувствительными данными.
• Стандартизация интерфейса: harmony снимает боль разношёрстных промпт-форматов и упрощает перенос между рантаймами (vLLM/Ollama/и т.д.).
• Осознанный трейд-офф: режимы рассуждений позволяют тонко балансировать «скорость ↔ точность» и деньги. Пример с AIME в разборе у Джея: medium даёт правильный ответ, а high просто тратит больше токенов.
Как попробовать за час ⏱️
1. Запуск: возьмите 20B на локальной машине (≥16 ГБ RAM/VRAM) или арендуйте 80 ГБ GPU для 120B (или используйте провайдера с vLLM/Ollama).
2. Форматирование: подайте промпты в harmony (готовые рендереры — Python/Rust).
3. Эксперимент: замерьте на своей задаче low vs medium vs high (качество/латентность/стоимость) и выберите пресет под прод.
Пара важных оговорок 🧯
• CoT-трейсы (цепочки рассуждений) не показывайте пользователям без фильтрации/суммаризации — в модельной карте это отмечено отдельно.
• Мультиязычность неплохая, но датасет в основном EN—для чувствительных RU-кейсов планируйте адаптацию/дообучение.
Итого: GPT-OSS — это не «магический скачок», а грамотная инженерия плюс удобные стандарты. В сумме — ниже порог входа, выше контролируемость и понятный путь к локальным агентам.
Если было полезно — поделитесь с коллегами.
Лучше всего почитать блог пост в оригинале:
Джей Аламмар — визуальный разбор (очень наглядно) и про каналы/режимы рассуждений.
OpenAI выложила gpt-oss-20B и gpt-oss-120B - это MoE-модели с 128k контекстом и «ручкой» reasoning: low/medium/high. Плюс новый формат harmony для сообщений и тулколлов.
Зачем нам это сейчас 🔥
Впервые со времён GPT-2 у OpenAI появились LLM с открытыми весами: можно скачать веса, крутить локально, настраивать под свои пайплайны и политику данных.
Как все устроено простыми словами 🛠️
• Архитектура: трансформер с Mixture-of-Experts. В 120B — 128 экспертов, в 20B — 32, при этом на токен активны 4 (экономия времени/памяти без просадки качества на типичных задачах). Контекст — до ~128k токенов.
• Размер и железо: чекпоинты ≈ 60.8 GiB (120B) и 12.8 GiB (20B). Благодаря квантованию MXFP4 MoE-веса ужимаются так, что 120B помещается в 80 ГБ GPU, а 20B можно запускать от ~16 ГБ памяти.
• Формат harmony: «каналы» ответа — analysis (мышление/часть тулколлов), commentary (тулколлы), final (итог). Он нужен, чтобы модель корректно «думала» и вызывала инструменты.
• Reasoning modes: low/medium/high задаются в системном промпте и напрямую меняют бюджет размышлений: выше точность → дольше отвечает -> выше стоимость.
• Токенизатор: o200k_harmony—чуть аккуратнее с не-английскими символами/эмодзи, но датасет в основном англоязычный—держим это в голове для RU-кейсов.
Мини-пример: как «крутить ручку» рассуждений 🎚️
```
<|start|>system<|message|>
You are a helpful AI.
Reasoning: medium
Tools: web_search, python
<|end|>
```
Так вы буквально указываете модели «думать средне». Для A/B можно сравнить low/medium/high по задержке и качеству на своей задаче..
Почему это важно в большом контексте 🌍
• Локальные агенты и приватность: 20B реально тянется на доступном железе; можно строить оффлайн-ассистентов с чувствительными данными.
• Стандартизация интерфейса: harmony снимает боль разношёрстных промпт-форматов и упрощает перенос между рантаймами (vLLM/Ollama/и т.д.).
• Осознанный трейд-офф: режимы рассуждений позволяют тонко балансировать «скорость ↔ точность» и деньги. Пример с AIME в разборе у Джея: medium даёт правильный ответ, а high просто тратит больше токенов.
Как попробовать за час ⏱️
1. Запуск: возьмите 20B на локальной машине (≥16 ГБ RAM/VRAM) или арендуйте 80 ГБ GPU для 120B (или используйте провайдера с vLLM/Ollama).
2. Форматирование: подайте промпты в harmony (готовые рендереры — Python/Rust).
3. Эксперимент: замерьте на своей задаче low vs medium vs high (качество/латентность/стоимость) и выберите пресет под прод.
Пара важных оговорок 🧯
• CoT-трейсы (цепочки рассуждений) не показывайте пользователям без фильтрации/суммаризации — в модельной карте это отмечено отдельно.
• Мультиязычность неплохая, но датасет в основном EN—для чувствительных RU-кейсов планируйте адаптацию/дообучение.
Итого: GPT-OSS — это не «магический скачок», а грамотная инженерия плюс удобные стандарты. В сумме — ниже порог входа, выше контролируемость и понятный путь к локальным агентам.
Если было полезно — поделитесь с коллегами.
Лучше всего почитать блог пост в оригинале:
Джей Аламмар — визуальный разбор (очень наглядно) и про каналы/режимы рассуждений.
👍19❤6🔥5