Pavel Zloi

Продолжая эксперимент с оценкой моделей на агентном сценарии.

Выполнил прогоны по Yandex Cloud API и несколько моделей через локальный инференс, опираясь на ту же связку что и раньше: агент phantom-agent Валерия @neuraldeep, формат harness, тот же набор задач и валидация по PAC1-dev из бенчмарка BitGN PAC Рината @llm_under_hood.

Методология

Без изменений, совпадает с предыдущим тестом, один поток на прогон, датасет pac1-dev, ответ проверяется сразу. YandexGPT-5.1-Pro, YandexGPT-5-Lite и Alice AI LLM - тестировал через облако, затраты в рублях по факту смотрел в Yandex AI Studio.

Экономика

Пакетов как у GigaChat нет, списание происходит по типам токенов, цены тут: Правила тарификации для Yandex AI Studio

Выжимка для истории из таблицы выше (синхронный режим, цена за 1000 токенов, ₽ с НДС, на 2026-05-07):
- YandexGPT Pro 5.1 - входящие 0.8, кешированные 0.8, токены инструментов 0.2, исходящие 0.8
- YandexGPT Lite - 0.2 для всех перечисленных типов
- Alice AI LLM - входящие 0.5, кешированные 0.5, инструменты 0.13, исходящие 1.2

Расчёт фактической стоимости:
- YandexGPT-5.1-Pro - ~1482 ₽ за 1M
- YandexGPT-5-Lite - ~292 ₽ за 1M
- Alice AI LLM - ~478 ₽ за 1M

Результаты тестирования

Точность (доля успешных задач на PAC1-dev):
- 67,4% - gpt-oss:20b
- 44,2% - YandexGPT-5.1-Pro
- 23,3% - Alice AI LLM
- 20,9% - YandexGPT-5-Lite
- 2,3% - Liquid LFM2.5-1.2B Instruct

Время (затраченное на прогон 43 задач в 1 поток):
- gpt-oss:20b - ~81 мин
- YandexGPT-5.1-Pro - ~19 мин
- Alice AI LLM - ~30 мин
- YandexGPT-5-Lite - ~35 мин
- LFM2.5-1.2B - ~4 мин

Итого

Модель YandexGPT-5.1-Pro по тестам показал себя выше GigaChat-2-Pro на PAC1-dev, тратит меньше токенов, но вот цена великовата.

Модель gpt-oss:20b даёт середнячка по качеству.

Lite и Alice в облаке на агенте BitGN дали меньше правильных ответов, чем ожидалось, вероятно их тюнили под другие задачи, здесь они скорее для полноты сравнения с Pro 5.1 и с остальной матрицей. Ну а малютка LFM 2.5 подтвердила, что маленькая модель (пусть даже специально обученная на агентную работу) не тянет агентный PAC1, что ожидаемо но полезно как нижняя отметка.

PS. Модель YandexGPT-5-Pro тестировать не стал, так как уже потратил на эксперименты почти 11 тысяч рублей, а цена за её токены на четверть больше чем за 5.1 Pro.

👍19🔥4❤2

2.37K views21:50

Pavel Zloi

Forwarded from Константин Доронин

1:28:55

Media is too big

VIEW IN TELEGRAM

Запись вчерашнего стрима "Как создавать AI-агентов на on-prem-моделях?".

YouTube: https://www.youtube.com/live/wjA9aPg7pjQ

Telegram: в медиа этого поста

Участники:
1. @neuraldeep
2. @kdoronin_blog

Паша. На стриме его несколько раз вспоминали:
@evilfreelancer

Платформа, с помощью которой тестировали on-prem-модели:
https://hub.neuraldeep.ru/

Презентация – в комментариях.

🔥14👍5

1.73K views08:57

Pavel Zloi

Forwarded from Валера Ковальский

UPDATE:

Kimi k2.6 теперь доступна всем PRO кто приобрел подписку через юкассу

https://hub.neuraldeep.ru/

🔥8👍5

1.86K views11:46

Pavel Zloi

Claude Mythos это самая мощная модель-хакер или самый дорогой маркетинговый миф в истории ИИ?

Anthropic анонсировала модель, которая находит zero-day во всех ОС и браузерах, ломает чруты и пишет эксплойты на раз-два. Рынок кибербезопасности дрогнул, правительства созывают совещания, эксперты бьют тревогу. Но что, если под капотом у модели не революция в машинном обучении, а просто грамотно собранный harness с тулами и снятые safety-ограничения?

В свежем посте разбираю, почему название "Mythos" (читается как Мифос) само по себе это почти спойлер, сравниваю рекламную компанию Mythos с рекламной компанией стирального порошка "Миф", разбираю оценки экспертов, и делаю предположение о том, что любой разработчик с Claude Code и парой MCP-серверов может собрать нечто похожее у себя дома.

Если вам интересно, где проходит грань между реальным прорывом и морозной свежестью, то приглашаю подписаться.

Читать на Бусти: Миф про Mythos?

👍10🔥8👏4💯1

1.66K viewsedited 17:25

Pavel Zloi

Mythos

Немного теории заговора

А я вот задумался, а что если большинство багов которые нашел Mythos были изначально сгенерированы клод кодом и как закладки добавлены в кодовую базу которую агенты нагенерировали, и именно в этом причина почем Mythos так много багов находит, быть может она знает что и где искать?

😁35🔥6👍5👏3❤1👎1💯1

1.53K views11:55

Pavel Zloi

GitHub

GitHub - sooperset/mcp-atlassian: MCP server for Atlassian tools (Confluence, Jira)

MCP server for Atlassian tools (Confluence, Jira). Contribute to sooperset/mcp-atlassian development by creating an account on GitHub.

По работе приходится много взаимодействовать с Jira и Confluence, и вот сколько лет в ИТ работаю столько мне претит сама мысль о том, что придётся что-то в этих системах делать.

Но благодаря проекту mcp-atlassian - простому навайбленному MCP-серверу, я могу работать с обеими системами через любой кодовый агент, хоть Cursor, хоть Coddy или скажем Kimi. Пишу агенту найди посты он находит, пишу эксортируй в markdown рекурсивно посты он делает, правлю и переделываю доку, затем прошу залить обратно, агент заливает (только вот вёрстка если хитрая есть, едет).

Настраивается сервер очень просто, нужно только Personal Access Tokens сгенерить через настройки профиля (к сожалению всего на 90 дней максимум), прописать его в .env параметр *_PERSONAL_TOKEN, затем в *_URL указать адрес где на вашем сервере обитает /rest/api/ эндпоинт и запустить сервер.

Вот пример docker-compose.yaml для быстрого запуска:

services:

  mcp-atlassian:
    restart: unless-stopped
    image: ghcr.io/sooperset/mcp-atlassian:latest
    container_name: confluence-mcp
    environment:
      TRANSPORT: streamable-http
      HOST: 0.0.0.0
      PORT: 8000
      JIRA_URL: ${JIRA_URL}
      JIRA_PERSONAL_TOKEN: ${JIRA_PERSONAL_TOKEN}
      JIRA_SSL_VERIFY: "false"
      CONFLUENCE_URL: ${CONFLUENCE_URL}
      CONFLUENCE_PERSONAL_TOKEN: ${CONFLUENCE_PERSONAL_TOKEN}
      CONFLUENCE_SSL_VERIFY: "false"
    ports:
      - "8000:8000"
    volumes:
      - "./mcp-atlassian_data:/home/app/.mcp-atlassian"

Подключаться через например Cursor к нему можно наприме вот так:

{
  "mcpServers": {
    "atlassian-local": {
      "url": "https://localhost:8001/mcp"
    }
  }
}

Мне предпочтительнее HTTP формат подключения к серверу, но есть варианты запустить этот MCP локально, так как он поставляется в виде испоплняемого файла который можно через npx поставить и потом юзать.

В общем рекомендую, мне он среди всех MCP для работы с конфлуенс и джирой (включая то что я сам навайбил) нравится больше всех.

❤10🔥4

1.49K views15:18

Pavel Zloi

А я всё чаще замечаю, что...

На сайт ChatGPT я всё меньше захожу, да и вообще на любой сайт-чат с моделями.

Мне сложно описать, что изменилось в моих привычках, но как-то так оказалось, что что-то быстрое и простое удобнее в Google поиске через AI Mode спросить (потому что там не нужно включать туннели).

Если я готовлю пост для блога то удобнее открыть Obsidian, а в нём плагин obsidian-agent-client, и к нему по ACP уже подключены Coddy Agent и KimiCode.

Если что-то посложнее либо через Coddy Agent, либо через Cursor, либо через KimiCode, либо через OpenCode удобнее спросить.

👍8😁2

1.54K viewsedited 21:33

Pavel Zloi

Не вайбкод, а сгенерированный техдолг.

😁36❤5🔥1

1.53K views10:42

Pavel Zloi

Forwarded from Dealer.AI

Прощай vibe coding, да здравствует agent engineering

😜

Андрей Карпати провел очередной разговор, на этот раз с партнёром Стефани Чжан. Что символично, год спустя после того, как он придумал термин "vibe coding".

Основные тезисы.
1. Эра Software 3.0, теперь LLM это вычислительная среда, где естественный язык как код, а агенты как runtime.
LLM - это новая операционная система. Сразу вспоминаю MemoryOS.

2. Почему Карпати и ты чувствуете себя ламером

даже после 20+ лет в коде

. Карпаты раньше читал любой репозиторий и понимал, что происходит. Сейчас LLM генерирует код, который он не писал и не полностью контролирует. Теперь, человек управляет не логикой, а намерением через естественный язык. Парадокс - чем лучше модели, тем меньше традиционное программирование гарантирует понимание системы.

3. Таким образом, теперь классическое обучение кодеров должно измениться, нужно не только учить человека писать код самому, но и работать с агентами. Глубина понимания + инструмент МАС.

4. Vibe Coding vs Agentic Engineering. Vibe coding - хаотичные промпты, выглядит ок, но нет архитектуры.
Agentic engineering - процесс работы с памятью и инструментами, формальные проверки, многоагентные системы, оркестрация, безопасность и мониторинг. В целом появляется сопутствующее понятие AgentOps.

5. Вопросы доверия, безопасности и контроля.
Агенты уже нуждаются в жёстких рамках, к примеру, меню доступных действий, а не свободный диалог. Проблема верифицируемости встаёт на важное место.
В классике, если код компилируется и проходит тесты - скорее всего правильно. В Software 3.0 LLM прошла тесты, но логика непрозрачная, дырки в безопасности и тп. Крч без работы не останемся. 👍

Итого в 2026 и далее:
1. Агенты повсюду, но не как умные ассистенты, а как спец юниты.
2. Инструменты для агентов станут важнее самих промптов.
3. Верификация через симуляцию/среду - запуск агента в песочнице станет стандартном.
4. Человеческое суждение станет ключевым навыком, заменяя знания синтаксиса ЯП.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Andrej Karpathy: From Vibe Coding to Agentic Engineering

Andrej Karpathy (co-founder of OpenAI, former head of AI at Tesla, and now founder of Eureka Labs) talks with Sequoia partner Stephanie Zhan at AI Ascent 2026 about what's changed in the year since he coined "vibe coding." He explains why he's never felt…

👍13❤1🥱1

1.08K views13:17

Pavel Zloi

Тимур Хахалев про AI Coding

Codex Remote on Mobile выпустили!

https://developers.openai.com/codex/remote-connections

• доступно на всех тарифах и регионах. пока только iOS / Android + MacOS
• убедитесь что вы обновили chatgpt на ios и codex app на macos (26.513.20950)
• убедитесь…

Прочёл на канале Тимура @the_ai_architect только что вышедший пост про очередное обновление Codex, меня в нём зацепило то, что создатели Codex добавили в своего агента возможность работать с одной общей сессией с компьютера и мобильного устройства. Крайне полезная функция на мой скромный взгляд, так как у меня уже например возникла острая потребность начать кодовую сессию дома, продолжить в месенджере на мобилке и потом подключиться с ноута к сайтику.

Это очень забавно, потому что я сегодня реализовал ровно тоже самое в Coddy Agent, только у меня в отличии от Codex все сессии хранятся on-premise. Можно работать с несколькими сессиями одновременно, можно запустить агент в режиме ACP через скажем Obsidian, а потом ещё зайти через браузер и смотреть за тем что генерит агент и там и сям.

🔥20❤6

1.27K viewsedited 21:02

Pavel Zloi

Пока все шумят про ~~it's revolution, Johnny~~ обновление Codex я наткнулся на вот это видео, поначалу всё было как обычно, коробочка на базе ESP, но под конец я немного подафигел.

И так, в нём идёт речь про экосистему оборудования Genesis созданную компанией Axiometa, скорее всего вам всё это ничего не говорит, но возможно вы когда-то слышали про микрокомпьютеры ESP и Arduino, которые позиционируются как коробочки для обучения микроэлектронике для самых маленьких в формате эдакого конструктора.

И вот представьте, что вместо классических плат прототипирования, проводков и электронных элементов у вас плата со входами аля Raspberry Pi и 50+ готовых заменяемых стандартизированных модулей, любой их которых можно подключить в плату и собрать коробочку с нужными модулям себе по вкусу.

Но самое любопытное в том, что Axiometa реализовали Axiometa Studio которая позволяет общаться с агентом Axie, просто пишешь какие модули есть и что хочешь сделать, а нейронка в формате вайбкода генерирует решение заточенное под текущий набор модулей. Готовую прошивку можно сразу из браузера залить на железку.

PS. К сожалению в Россию коробочки можно доставить только через байеров (сервисы доставки типа сдек шопинг).

🔥7❤4

1.14K views11:03

Pavel Zloi

RPA Skills По мотивам своих же заметок про вайбкодинг и набора промптов в репозитории cursor-vibe-prompts я оформил это как отдельные скилы для агентов, чтобы не пересказывать каждый раз длинный текст в чат. - /rpa-init - скилл прогрева контекста по репозиторию…

Не так давно я публиковал пост про репозиторий RPA Skills со скилами которыми пользуюсь каждый день.

С момента релиза придумал новый формат использования скила /rpa-init, теперь я пишу не просто этот скил в запросе, а уточняю на что агенту следует обратить внимание, скажем если я хочу править документацию пишу что-то типа:

/rpa-init с упором на документацию и спецификации

Ну или если скажем надо доработать API-эндпоинты прошу сделать инит с детализацией того как эти эндпоинты устроены и работают.

Это помогает чуть более тонко направить агента в нужное русло без последующих уточнений.

👍2

983 viewsedited 17:02

Pavel Zloi

Классификация ИИ-решений

Периодически мои собеседники путают простых чатботов с агентами и harness, чтобы каждый раз не повторяться решил написать данный пост в котором постараюсь рассказать какие системы бывают, из чего состоят и какие проблемы решают.

1. Чат с LLM (чат-бот)

Веб- или мобильный интерфейс с нескольким (или одной) моделями. Пользователь пишет, модель отвечает. История сессии - краткосрочная память, системный промпт задаёт характер ассистента. При этом у чата может и не быть памяти, тогда это час с instruct моделью, которая "помнит" только свой промт и вопрос пользователя.

LM + инструкция + (обычно) контекст диалога. Тулов нет или они спрятаны внутри продукта и пользователь о них не знает.

Например: ChatGPT, Claude.ai, chat.qwen.ai, chat.deepseek.com, GigaChat в браузере, локальный Open WebUI, LibreChat, LM Studio и так далее, тысячи их.

2. LLM с тулами (роутер)

По сути тот же чат с LLM, но не обязательно в виде веб-приложения, оркестратор по запросу вызывает один или несколько инструментов - погода, калькулятор, поиск картинок, отправка письма - и подставляет ответ в контекст. Решение "какой тул дернуть" часто одношаговое, модель сама решает как тул нужно выбрать, без явного плана из нескольких пунктов и без переоценки плана по ходу дела.

LLM + инструкция + тулы. Память - по желанию (диалог).

Например: ранний Bing Chat с поиском, боты в Telegram с tool calling, "умные" колонки и голосовые ассистенты и так далее.

3. Deep Search / Deep Research

Системы, которая исследует открытый мир (веб, индекс, API новостей) в несколько шагов. Типичный сценарий - уточнить запрос, составить план подзапросов, в цикле искать и читать источники, собрать отчёт с проверкой полноты.

LLM + инструкция (роль исследователя) + тулы поиска/чтения страниц + рабочая память (черновики, найденные ссылки). Долгосрочная память пользователя чаще не обязательна.

Например: Perplexity Pro, Google AI Mode, ChatGPT с глубоким исследованием, OpenAI Deep Research, sgr-agent-core и аналоги, кастомные пайплайны по схеме "уточнение - план - цикл по задачам - финальная проверка - отчёт".

4. RAG

Ответы и действия опираются на базу знаний - векторная БД, Confluence, PDF, Obsidian, тикеты. Ретривер (часто отдельный тул в виде скрытого шага) вытаскивает релевантные чанки и подкладывает их в промт, затем LLM синтезирует релевантный ответ с опорой на них.

LLM + инструкция ("отвечай только по контексту") + память (индекс) + тул retrieval. Краткосрочная память - диалог.

Обычно этого достаточно для систем FAQ, онбординга, поиска по внутренней документации. Один-два прохода retrieve + generate, но даже самые сложные и продвинутые RAG в отличии от даже простых агентов частенько показывают меньшую точность на задачах широкого спектра ввиду своего детерминизма.

5. Агент

Недетерминированная система, которая сама себе ставит задачи, анализирует историю диалога, вызывает тулы и оценивает, проверяет получилось ли как было задумано. В инструкции зашиты планирование, ReAct, Ralph-loop или Get Shit Done Loop и критерии успеха.

LLM + инструкция с планом/рефлексией + память (краткая и долгая) + набор тулов (для работы с файлами и взаимодействия с внешним миром)

Например: Claude Code, Cursor Agent, Codex, и так далее.

6. Harness

Не "ещё более умная модель", а инфраструктура вокруг агента. Песочница, лимиты, ретраи, очередь задач, логи, верификация артефактов, долгосрочная память, MCP/skills, расписание, human-in-the-loop. Модель может быть любой - качество системы сильно зависит от harness.

Агент (как выше) + слой исполнения, безопасности и жизненного цикла.OpenAI в 2026 называла это Harness Engineering - миллион строк кода, сгенерированных Codex, при маленькой команде и жёсткой обвязке.

Например: OpenClaw, Coddy Agent, Hermes Agent, ZeroClaw и так далее.

Итого

Harness > Agent > RAG | Deep (Re?)Search > LLM

Границы размыты, часто системы включают в себя компоненты других системы, да развитие ИИ-решений идёт очень быстро, поэтому люди, особенно новички в агентах, путаются в терминологии, и я надеюсь благодаря этой заметке путаницы станет чуточку поменьше.

❤19👍12👎1

712 viewsedited 11:55

About

Blog

Apps

Platform