Pavel Zloi

Pavel Zloi pinned «Когда поднимут цены на ИИ Недавно мне пришлось оказаться на одной лекции, имен называть не буду, но общий настрой выступления можно описать так - человеку показали Claude Code, после чего он искренне поверил, что теперь "бизнесом можно управлять через ИИ"…»

09:55

Pavel Zloi

Скилов много, оркестрации мало

Последнее время только и слышу у себя в информационном пузыре разговоры про skills. Сделайте skill на ревью, skill на деплой, skill на парсинг, skill на тесты, skill на документацию. Идея в целом годная, под небольшую задачу пилим небольшой skill с понятным триггером, коротким SKILL.md, парой reference-файлов и скриптами, такая постановка задачи действительно помогает агенту меньше фантазировать и чаще попадать в нужный флоу. Особенно когда такой skill вырос не из абстракции, а из реальной боевой задачи, реальных фейлов и реальных исправлений, типа вот я сижу пилякаю какую-нибудь штукенцию и хочу на будущее её автоматизировать.

Но чем дольше смотришь на такие системы, тем сильнее ощущение, что разговор про skills застрял на уровне отдельных кирпичиков, тогда как сама проблема уже давно находится этажом выше. В реальной работе задача почти никогда не равна одному skill. Нормальный инженерный процесс это сначала собрать контекст, потом выбрать режим работы, потом проверить спецификацию, потом написать или обновить тесты, потом сделать код, потом прогнать валидацию, потом на ошибке уйти в запасной сценарий, а иногда ещё и поднять второго агента на узкий участок.

Ну или чем Гейтс не шутит, собрать рой агентиков для решения одной большой задачи, а дальше каждому актору раздать небольшие задачки и спокойно идти спать/гулять/дебоширить.

И вот в этот момент становится видно, что сам по себе skill уже не является конечной сущностью. Он становится всего лишь одной операцией внутри более крупного маршрута. Отдельный skill умеет сделать шаг. Но бизнес-ценность появляется не в момент, когда агент умеет шаг, а в момент, когда он надёжно проходит всю цепочку шагов до проверенного результата.

Мы можем решать эту задачу разными путями, мой любимый - большие и подробные спецификации, плюс щепотка тестов.

Но как по мне так подход "одна задача - один skill" уже либо устарел, либо вот-вот упрётся в потолок, и не потому, что skills плохие и не нужны, скорее наоборот, хорошие skills очень нужны. Но центр тяжести смещается. Важен уже не только сам skill, а то, кто, когда и при каких условиях его вызывает.

Отсюда и появляется более интересная конструкция, которую я бы назвал скил-оркестратором или если хотите каскад скилов, по аналогии с каскадом классификаторов.

По сути это не один большой skill, который пытается вместить в себя всё, а коллекция маленьких skills со скриптами, шаблонами, reference-файлами и жёстко очерченными границами ответственности. Один skill собирает контекст. Другой читает спецификации. Третий пишет тесты. Четвёртый запускает проверки. Пятый делает ревью результата. Шестой оформляет итог.

А сверху лежит ещё один слой (тот самый оркестратор), где явно описано, в какой последовательности всё это вызывать, какие параметры передавать дальше, что считать успехом, где делать паузу для подтверждения, и какой fallback включать, если один из шагов не сработал.

Эта история как по мне отлично ложится на рой агентов и позволяет делать сложные многоступенчатые задачи (само собой разделённые на небольшие атомарные этапы) при этом не терять контекст и обходить самое главное ограничение модели связанное с механизмами внимания моделей.

И вот такой подход, как мне кажется, намного ближе к будущему агентных систем, чем бесконечное наращивание папки со skills. Skill сам по себе никуда не исчезает. Просто он перестаёт быть главной сущностью. Skill становится модулем. А главной сущностью становится оркестрация.

👍20❤6💯6🥴1

2.6K views16:33

Pavel Zloi

Forwarded from Тимур Хахалев про AI Coding

CLI Creator Skill

Тут ребятки из openai вчера релизнули новый curated skill — CLI Creator

Skill уже добавлен в Codex App

Он позволяет создать cli + skill для вашей рутины из имеющихся: API docs, OpenAPI JSON, SDK docs, curl examples, browser app, existing internal script, article, or working shell history.

Звучит потрясающе!

Я уже пошёл и проверил на себе. У меня был skill, который ходил в мой сервис по api (через curl + api key) и доставал read only инфу.
Сейчас попросил gpt создать cli версию этого инструмента.

Мы с ним обсудили то, как это будет выглядеть, добавили апдейтов (skill немного отставал) и с помощью моего planact реализовали задачу за 1.5 часа. Всё работает прекрасно!

Напоминаю, что главная идея такой связки cli+skill состоит в том, чтобы дать вашему кодинговому агенту доступ к вашему любимому сервису.
Юзкейс может быть, к примеру, такой: "Ок, агент, сколько пользователей у нас сегодня зарегистрировалось с параметром %PARAM%?". Агент подтягивает этот созданный skill, далее использует CLI, идёт в ваш сервис, тянет инфу и отвечает на ваш вопрос.

Так что если у вас есть какие-то процессы, которые можно так упаковать, то 100% рекомендую это сделать!

Кстати, этот skill является продолжением идеи Валеры и Паши — openapi-to-cli, инструмент который генерирует cli из вашего openapi. Кому актуально — тоже рекомендую!

#aicoding@the_ai_architect

Лайк, репост,

✔️

Тимур Хахалев про AI Coding, подписывайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍5❤3

2.29K views13:52

Pavel Zloi

Сегодня день горячий на релизы, так что я с самого утра наблюдаю за схваткой двух больших домов: адептус клод кодус и хранителями кодекса, хихикаю и дальше пишу курсору и кими что надо будет сгенерировать пока я ужинаю.

Кстати, напоминаю ещё раз про мой недавний пост про поднятие цен на модельки, если вы думаете, что стало очень дорого, то успокойтесь, будет ещё дороже.

😁15🔥5🤝2

2.65K views18:12

Pavel Zloi

3:18

👍6🔥3🤡3👎2👏1💩1💯1

2.4K views12:09

Pavel Zloi

Про AiConf

Вчера пробежал первый полумарафон в этом году, обычно бегаю такие большие расстояния когда надо сосредоточиться на какой-то задаче или выступлении, попрогонять в голове спич ну и так далее, эдакая тренировка слеш репетиция слеш медитация.

А всё потому что 20го числа я выступаю на конференции AiConf 2026 (к чему готовился всю последнюю неделю) с докладом в жанре мастер-класс про SGR Agent Core, планирую рассказать про наш фреймворк, как его ставить, запускать, как на нём писать своих агентов и под конец в какую сторону фреймворк будет развиваться.

В общем заходите на огонёк, до связи.

1🔥22👍14

2.38K views10:13

Pavel Zloi

GitHub

GitHub - EvilFreelancer/rpa-skills: Agent skills collection, includes RPA workflow and Logika (Chelpanov formal logic)

Agent skills collection, includes RPA workflow and Logika (Chelpanov formal logic) - EvilFreelancer/rpa-skills

RPA Skills

По мотивам своих же заметок про вайбкодинг и набора промптов в репозитории cursor-vibe-prompts я оформил это как отдельные скилы для агентов, чтобы не пересказывать каждый раз длинный текст в чат.

- /rpa-init - скилл прогрева контекста по репозиторию, просит агента изучить код, прочесть доки, и код тестов, затем выполнить установку dev-окружения, прогнать тесты, написать короткий отчёт о проекте.

- /rpa-gen-rules - скилл который позволяет собрать или обновить правила для агента, внутри скилла лежат примеры под Cursor и под Claude Code, правила генерятся по методу слоёного пирога (чтобы агент сначала писал логику первого уровня, у которой нет зависимостей, потом второго и так далее), плюс правила описывают разработку по паттерну BDD.

- /rpa-feat - скилл добавления новой фичи строго по BDD, пишет план, генерит тесты, выполняет тесты (red), пишет код, гоняет тесты (green), гоняет все остальные тесты, актуализирует документацию и примеры, плюс выполняет линтер под конец.

- /rpa-bugfix - скилл исправлениия бага, сначала пишет тест на воспроизведение бага, потом фикс, потом полный прогон всех тестов и короткий отчёт о проделанной работе.

Скилы /rpa-init и /rpa-gen-rules работают сами по себе, ничего дополнительного писать не потребуется, а вот для /rpa-feat и /rpa-bugfix нужно передать на вход информацию о том что надо сделать, например текст из issue написать, иначе они не смогут правильно работать.

Репозиторий со скиллами:
https://github.com/EvilFreelancer/rpa-skills

👍25🤝2

2.81K views16:37

Pavel Zloi

Про AiConf Вчера пробежал первый полумарафон в этом году, обычно бегаю такие большие расстояния когда надо сосредоточиться на какой-то задаче или выступлении, попрогонять в голове спич ну и так далее, эдакая тренировка слеш репетиция слеш медитация. А всё…

Отстрелялся, выступать с докладом было весело, из занятных ситуаций которые произошли: оказалось что через вайфай не работает загрузка пакетов через pip, так что пришлось надеяться на воображение слушателей и мой навык комментирования кода, который я приобрел еще во времена когда стримил.

Были вопросы про сравнение проекта с OpenClaw, вопросы про настройки vllm (и required в частности), про внутреннюю логику работы тулов, ещё спрашивали советы вкатывальщикам в тему агентов и много каких ещё интересных вопросов.

Видеозапись велась, мне даже микрофон беспроводной дали, поэтому вполне возможно что выложу запись.

На будущее сделал себе кучу заметок, ну и понял что ничего в таких выступлениях страшного нет, буду выступать на конференциях про нейросети короче, мне понравилось.

Сейчас двигаю домой, после доклада какое-то резкое ощущение усталости появилось, максимум что хочется после доклада это покемарить, занятно все это.

Короче такой вот веселый денек был.

2🔥38❤10🏆6👍1

2.79K viewsedited 12:07

Pavel Zloi

Forwarded from Dealer.AI

Ещё раз про новые роли AI-команд, надеюсь последний 🇨🇩.

В последнее время люди приходят к DS просят, сделать MCP. Люди, дорогие, эт не задача AI engineer, Data scientist. Это задача или разработки, или новой роли AI разработчик. А чтобы вы не забывали про роли, вот вам небольшой тлдр по AI-native профессиям со стороны ИИ.

И кстати, перестаньте мучать CDTO/CTO/CIO вопросами развития ИИ в вашей компании. Их задача проникновение ИИ инструментов в их область деятельности (разработка, процессы, инфра, поддержка и тп). А за развитие ИИ отвечает Head of AI/VP of AI/Chief AI Officer

Все, вечером будет про Kimi-K2.6

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8👌6❤2👍1💯1

2.44K views10:53

Pavel Zloi

Forwarded from AI да парень! / Sergei Notevskii

#300tps
Бабушкины рецепты

Сегодня наш LLMOps (Серёга, привет!) показал новый интерфейс рецептов vLLM.
На первый взгляд просто удобный конструктор: выбираешь модель, железо, параметры - получаешь готовый vllm serve.

Но мне кажется важнее не UI и даже не JSON API.

Важнее сама попытка вынести то «как правильно запустить конкретную
модель на конкретном железе» в отдельный воспроизводимый
артефакт. Потому что обычно это знание живёт где угодно:
в model card, в README, в issue, в PR, в Discord, в голове
инженера который «уже поднимал Qwen на H200 и помнит где грабли».

Что конкретно появилось.
Раньше рецепты были md файлами
в подразделе доки - свободный текст, каждый автор писал как
удобно. Сейчас YAML-схема со строгими полями (hardware_configs,
flags, throughput_vs_latency), валидация и формула VRAM при
билде, JSON API, ну и конечно селектор на странице модели.

Живой пример скорости: сегодня релизнулся DeepSeek V4, PR
поддержки в vllm (#40760) ещё мержится - а рецепт для V4-Pro
уже на сайте, верифицирован на 8×H200, с готовыми флагами вроде --tool-call-parser deepseek_v4.
Раньше при выходе модели такое собирали бы неделю по чатам и issue.

По сути мы чуть продвинулись на пути от набора шаманских команд к набору версионируемых рецептов.

👍19🔥13❤5

1.95K views08:56

Pavel Zloi

Вайбкодинг для DevOps

Размышлял намедни о порядке в своем зоопарке серверов. Моя самая главная и рутинная проблема - развертывание десятков контейнеров на разных машинах, их автоматическое обновление и поддержка. На docker swarm у меня аллергия, ansible не годится, потому что эти скрипты неустойчивы к изменениям, и их тоже надо сопровождать. Вдоволь наигравшись с *Claw и прочими Harness и агентами, составил для себя что-то типа правил администрирования серверов через агентов. Делал всё по мотивам поста про вайбкодинг документации (ведь настройки серверов в формате эдакой вики тоже суть документация) и другого поста про создание каскадного скила.

Создаю папку с директориями, каждая директория названа как хостнейм машины. В каждой директории находится README файл с описанием того, как подключиться к серверу, что этот сервер делает, какие у него есть особенные настройки, задачи по расписанию. Короче, все, на что имеет смысл обратить внимание.

В корне проекта глобальный AGENTS, в нём описываю как и куда подключаться, что делать и так далее.

Помимо этого, в этих директориях я решил хранить папки, дублирующие структуру домашней папки пользователя. А в них у меня всякие разные docker-compose.yaml, настройки env, конечно же README с описанием чего и как делать и так далее, получается что-то типа этого:

servers/
  README.md
  AGENTS.md
  lb01/
    README.md
    containers/
      docker-langfuse/
        docker-compose.yaml
        README.md
    ...
  gpu02/
    README.md
    containers/
      docker-tei/
        docker-compose.yml
  gpu03/
    README.md
  nas01/
    README.md
  ...

По итогу получается, что настройки моих серверов хранятся локально у меня и копия на сервере git. Файлы для стейтфул приложений (типа логов того же langfuse) лежат при этом на той машине, на которой это приложение запущено. Плюс секреты и конфиги там же, так как в репу я коммичу только примеры.

Кстати, знающие люди, наверное, заметят, что это напоминает систему контроля конфигураций NixOS, а кто-то скажет, что это скорее ansible. Обои будут правы ;) т.к. я вдохновлялся всеми указанными проектами. Но мое решение чуть более универсальное и, в отличие от NixOS, не привязывается к конкретной ОС, а в отличие от ansible агент работает недетерминированно и может справиться с любой операционкой и любой задачей, что я ему поручу.

То есть по сути в такой схеме каждый сервер становится уникальным саб-скилом, доступным через мета-скил.

❤10🔥8💯3👍1🤣1👻1🫡1

3.12K views10:51

Pavel Zloi

Вайб-дизайн Starterkit 18 марта 2026 года Google выкатили стандарт DESIGN.md (прототип которого они тизерили ещё в мае 25го года), если кратко, то это такой хитрый markdown-файл для переноса и импорта общих правил оформления дизайна между проектами и инструментами.…

В продолжение темы с дизайном через агентов, намедни состоялся релиз проекта OpenDesign, это открытая альтернатива Claude Design без вендорлока на модели Antropic.

Заявлена поддержка многих кодовых агентов, включая опенкод, а это значит можно будет задействовать on-prem модели, что очень хорошо, так как у меня как-раз стоит копытом бьет qwen 3.6 35b на паре 4090.

Короче план чем заняться в праздничные дни финализирован.

GitHub

GitHub - nexu-io/open-design: 🎨 Local-first, open-source alternative to Anthropic's Claude Design. ⚡ 19 Skills · ✨ 71 brand-grade…

🎨 Local-first, open-source alternative to Anthropic's Claude Design. ⚡ 19 Skills · ✨ 71 brand-grade Design Systems 🖼 Generate web · desktop · mobile prototypes · slides · images · videos · ...

🔥9❤7

2.17K viewsedited 07:38

Pavel Zloi

Фир оф мессинг офигенного

Прочел у Влада @NGI_ru пост про то как избавиться от FOMO и пост мне настолько понравился, что захотелось тоже высказаться на этот счет.

Для тех кому лень читать, fomo это получивший в эпоху когда все массово начали пинать ИИ силу страх пропустить что-то интересное. Эдакий думскролинг, но со знаком плюс (аналогия ложная, но суть передать позволяет). Люди с этим страхом находятся в состоянии стресса, следят за всеми новостями и стараются пробовать все новинки, так как боятся оказаться на обочине прогресса если что-то пропустят.

Мой рецепт как бороться с этим страхом следующий: никак.

Страх не победить, его можно только принять и забить, выбрать себе интересную тему и развиваться в её направлении, а лучше делать что-то свое и стать ведущим, а не ведомым, не бойтесь что-то пропустить, ваши друзья или знакомые все равно вам расскажут обо всех интересных новостях (хотите вы этого или нет;)

Лично я за новостями так наблюдаю: если выходит что-то прикольное, добавляю это в виде напоминалки в список «попробовать через две недели», а каждые выходные провожу 1-2 часа изучая то, что накопилось в этих буферных списках.

То есть если я сегодня прочту про релиз очередной суперпрорывной аки трубы зимой технологии, то попробую ее рукам через выходные.

Мотивация у меня такая, вот например выходит новая модель или новый проект, за две недели её кто-то уже и протестирует и решит проблемы с промтами и с интеграцией в vllm, а я приду уже на все готовое и без нервов и стресса сразу получу хороший результат ну или как минимум приму решение стоит ли история внимания.

При этом информационный шум меня не отвлекает от работы и творчества, но я все равно успеваю попробовать то что хотел.

Конечно же бывают и исключения навроде новых моделей в кодовых агентах, или новых фичей, они просто под рукой, поэтому изучать новинку можно начать сразу же на релизе, без подготовки.

NGI | Влад Корнышев про AI и создание AI-продуктов

Как избавиться от AI FOMO: мой подход к ознакомлению с кейсами, новостями и новыми инструментами

AI-сфера развивается с такой скоростью, что попытка уследить за всем превращается в полноценную работу. Раньше я старался пробовать больше новых инструментов…

👍20❤8

2.2K viewsedited 10:44

Pavel Zloi

С праздником, товAIрищи!

❤25🎉19🤮9😢4👍3

2.17K viewsedited 08:55

Pavel Zloi

Сижу пробую OpenDesign через qwen 3.6 35b, которая к слову доступна всем желающим на Hub NeuralDeep по подписке.

Первый результат получил спустя пару минут, агент принял задачу, задал уточняющие вопросы, принял мои пожелания и инструкцию о том, что я хочу получить интерфейс чата похожий на ChatGPT и вот такой результат выдал.

Тут конечно потребуются ещё доработки, но похоже концепция жизнеспособна, есть у меня в фигме один старенький макет чатика с моделями, попробую его скормить в качестве референса.

🔥15🥰5👎2🤔2

2.3K viewsedited 17:00

Pavel Zloi

По просьбам трудящихся конвертировал в GGUF модельку bond005/whisper-podlodka-turbo, которая как я понял затачивалась под качественный ASR русской речи.

Доступны квантизации до f16, q8 и q4, запустить модельку вы можете дома например через мой проект docker-whisper-server.

Так как оригинальная моделька основана на whisper large v3 turbo много памяти она кушать не будет.

👏16❤‍🔥10🔥6

2.29K viewsedited 17:49

Pavel Zloi

Расширение каталога на Hub NeuralDeep

Сегодня вместе с Валерием (@neuraldeep) добавили новых моделей в публичный API проекта NeuralDeep. Базовый URL для запросов api.neuraldeep.ru (OpenAI-совместимо, Bearer с ключом). Ключ можно получить после регистрации на hub.neuraldeep.ru.

Итого:
- LLM'ки - из коробки через апишку доступны две флагманские модельки gpt-oss-120b и qwen3.6-35b-a3b, их можно крутить в кодовых агентах и чатботах.
- Эмбеддинги - в дополнение к bge-m3 и e5-large добавили русскоязычную frida, мультимодальную jina-embeddings-v4 и толстушку qwen3-embedding-4b.
- Реранкеры - уже была bge-reranker для ранжирования чанков, пригодится для вашего RAGу.
- Голос в текст (ASR) - помимо whisper-1 добавили ещё и whisper-podlodka-turbo.

Полный список моделей можно посмотреть так:

curl -sS "https://api.neuraldeep.ru/v1/models" \
     -H "Authorization: Bearer <ваш-ключ-с-хаба>"

Регистрируйтесь, пользуйтесь, предлагайте свои модельки, поддерживайте рублём, рассказывайте друзьям - нам пригодится любая ваша помощь.

1❤19🔥10👍5

7.71K viewsedited 16:31

Pavel Zloi

Похоже зря я критиковал облачные модельки от Сбера, так как после экспериментов с gpt2giga и litellm мне удалось заставить модели GigaChat-2 доступные по API работать в качестве сердца агентной системы.

В качестве harness взял Hermes, так как при всех её "особенностях" в виде экстравагантного UI, странностей в подключения скилов и провайдеров, она настраивается и ощущается в разы приятнее чем OpenClaw и аналоги.

И так, что надо сделать чтобы пощупать флагманские сберовские модельки в режим agentic loop:

1️⃣ регаемся тут https://developers.sber.ru/studio/login (если у вас уже есть сберовская карта, то можно через приложение зайти)

2️⃣ создаём проект, в модалке выбираем GigaChat API

3️⃣ там будет Настроить API, следуем инструкции, сохраняем все полученные ключи, позже пригодятся

4️⃣ теперь запустим апишку gpt2giga, я всё через docker делаю, так что ловите docker-compose.yaml

services:
  gpt2giga:
    image: ghcr.io/ai-forever/gpt2giga:latest
    ports:
      - "8091:8091"
    environment:
      GPT2GIGA_MODE: DEV
      GPT2GIGA_HOST: 0.0.0.0
      GPT2GIGA_PORT: 8091
      GPT2GIGA_ENABLE_API_KEY_AUTH: False
      GIGACHAT_CREDENTIALS: <токен вида base64>
      ACCESS_TOKEN: <JWT-токен через oAuth>
      GIGACHAT_SCOPE: GIGACHAT_API_PERS
      GIGACHAT_VERIFY_SSL_CERTS: False
      GPT2GIGA_USE_HTTPS: False
      GPT2GIGA_PASS_MODEL: True

запускаем через docker-compose up -d, после чего на 8091 становится доступно API с моделями, запросим список доступных моделей командой:

curl https://127.0.0.1:8091/v1/models

если в ответе пачка моделей, включая GigaChat-2, GigaChat-2-Pro, Embeddings и так далее (кстати где Frida и sbert?) то всё сделали правильно.

5️⃣ теперь клонируем исходники Hermes:

git clone https://github.com/NousResearch/hermes-agent.git

и перейдём в корень папки hermes-agent.

6️⃣ придётся чуть прокачать docker-compose.yml, приведём его к следующему виду:

services:
  gateway:
    build: .
    image: hermes-agent
    container_name: hermes
    restart: unless-stopped
    network_mode: host
    volumes:
      - ~/.hermes:/opt/data
    environment:
      - HERMES_UID=${HERMES_UID:-10000}
      - HERMES_GID=${HERMES_GID:-10000}
      - API_SERVER_HOST=${API_SERVER_HOST:-0.0.0.0}
      - API_SERVER_KEY=${API_SERVER_KEY}
    command:
      - "gateway"
      - "run"

  dashboard:
    image: hermes-agent
    container_name: hermes-dashboard
    restart: unless-stopped
    network_mode: host
    depends_on:
      - gateway
    volumes:
      - ~/.hermes:/opt/data
    environment:
      - HERMES_UID=${HERMES_UID:-10000}
      - HERMES_GID=${HERMES_GID:-10000}
    command: 
      - "dashboard"
      - "--host"
      - "0.0.0.0"
      - "--no-open"
      - "--insecure"

плюс создадим в папке .env файл следующего содержания:

HERMES_UID=1000
HERMES_GID=1000
API_SERVER_HOST=0.0.0.0
API_SERVER_KEY=<тут пишем свой api ключ>

запускаем композицию через docker-compose up -d, если всё ок, то в хомяке пользователя появится папка .hermes, она нам и нужна.

7️⃣ теперь надо подправить конфиг, находится он тут: ~/.hermes/config.yaml, вверху, в поле модель заменим блок models, на строки вида:

model:
  provider: custom
  default: GigaChat-2-Pro
  base_url: https://127.0.0.1:8091/v1
  api_key: ~
  api_mode: chat_completions

Кстати, помимо двушки Pro, есть двушка Max, просто двушка и модели первого поколения.

Настройки системы тут https://127.0.0.1:9119

———

После рестарта при помощи docker compose restart эта конфигурация станет активной и вы сможете работать с Hermes через OpenAI-совместимое API, например:

curl -sS --max-time 120 -N -X POST "https://127.0.0.1:8642/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <тут пишем свой api ключ из .env>" \
  -d '{
    "model": "hermes-agent",
    "messages": [
      {"role": "user", "content": "Кто ты?"}
    ],
    "stream": false
  }'

А ещё эту апишку можно использовать через Open WebUI, LibreChat или в качестве модели агента OpenCode.

Если у вас возникнут какие-то сложности, то не стесняйтесь задавать вопросы, постараюсь подсказать.

❤19🔥13👍6🤔3🌚1

2.21K viewsedited 10:58

Pavel Zloi

Forwarded from Валера Ковальский

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Встроил в хаб OpenWebUI, чтобы показать реальную скорость, и вы сразу могли проверить модели!

Работает фича из личного кабинета после авторизации (если вы нашли баг или вам интересен такой ИИкит, пишите в ЛС)

https://hub.neuraldeep.ru/

P.S. Токен из видео уже не работает))))
Скорость на видео реальная х1

За идею спасибо Паше

❤‍🔥11👍6❤4

1.68K views12:58

Pavel Zloi

Нашёл, как мне показалось, баг в gpt2giga, запросы на модель Max через прокси почему-то вели на Lite модель.

Делаю запрос:

curl -sS -X POST "https://127.0.0.1:8091/v1/chat/completions" \
     -H "Content-Type: application/json" \
     -d '{"model":"GigaChat-2-Max","messages":[{"role":"user","content":"hi"}],"max_tokens":10}'

В ответе:

{"detail":{"url":"https://gigachat.devices.sberbank.ru/api/v1/chat/completions","error":{"status":402,"message":"Payment Required"}}}

(ожидаемо, потому что я за Lite модель не заплатил, токены закончились)

Списался с ведущим мейнтейнером проекта, рассказал о моей проблеме, оказалось дело было в настройках gpt2giga, вот правильная конфигурация:

services:
  gpt2giga:
    image: ghcr.io/ai-forever/gpt2giga:latest
    ports:
      - "8091:8091"
    environment:
      GPT2GIGA_MODE: DEV
      GPT2GIGA_HOST: 0.0.0.0
      GPT2GIGA_PORT: 8091
      GPT2GIGA_ENABLE_API_KEY_AUTH: False
      GIGACHAT_CREDENTIALS: <токен вида base64>
      ACCESS_TOKEN: <JWT-токен через oAuth>
      GIGACHAT_SCOPE: GIGACHAT_API_PERS
      GIGACHAT_VERIFY_SSL_CERTS: False
      GPT2GIGA_USE_HTTPS: False
      GPT2GIGA_PASS_MODEL: True

Там внизу я добавил GPT2GIGA_PASS_MODEL: True, эта опция заставляет прокси прокидывать название модели из поля model (смотри пейлод curl запроса), по дефолту опция имеет значение False и поэтому прокси не читает из model и шлёт мой запрос на дефолт (просто GigaChat-2 модель, то есть Lite).

Кстати, между делом выяснил что GigaChat это алиас для GigaChat-2, GigaChat-Pro для GigaChat-2-Pro, а GigaChat-Max для GigaChat-2-Max, такой вот занятный факт.

PS. Оригинальный пост тоже поправил.

🔥7👍3🤪3

2.01K viewsedited 17:32

Pavel Zloi

Ну чтож, хочу рассказать с какой целью я решил заморочиться с настройкой gpt2giga и покупкой токенов моделей GigaChat-2 (Max, Pro и Lite).

Для оценки семейства GigaChat-2 на агентном сценарии использован агент phantom-agent Валерия @neuraldeep, данный агент реализован в формате harness и ориентирован на бенчмарк BitGN PAC1 за авторством Рината @llm_under_hood.

Агент строит цикл ReAct с набором навыков и дашбордом, в README заявлен ориентир порядка ~86% на pac1-dev на gpt-oss-120b.

Методология

Прогоны выполнялись на датасете pac1-dev, он меньше продового pac1-prod и даёт валидацию, поэтому корректность ответа по задаче проверялась сразу, без ожидания сервера BitGN, плюс видно на каких задачах были совершены ошибки.

Тестирование проводилось в 1 поток (в один момент времени решается одна задача).

Тесты моделей GigaChat выполнялись через прокси gpt2giga на тестовом аккаунте, тесты моделей gpt-oss и qwen 3.6 через Hub Neuraldeep.

Во время проведения тестов gpt-oss зависла апишка BitGN на t30, поэтому тест пришлось перезапускать из-за чего такой высокий wall time, при прочих равных он должен быть на уровне qwen 3.6.

Эконономика

Для теста закуплены пакеты:
- GigaChat Max - 3M токенов за 1950 ₽
- GigaChat Pro - 3M токенов за 1500 ₽
- GigaChat Lite - 20M токенов за 1300 ₽

Оценка по купленным пакетам:
- Max: ~0,65 ₽ / 1K токенов (~650 ₽ / 1M)
- Pro: ~0,50 ₽ / 1K (~500 ₽ / 1M)
- Lite: ~0,065 ₽ / 1K (~65 ₽ / 1M)

В пересчёте на объём токенов цена укладывается в диапазон "дешёвый относительно тарифов OpenAI и Anthropic".

Результаты тестирования

Точность (доля успешных задач на PAC1-dev):
- 79.1% - GPT-OSS-120B
- 41.9% - Qwen 3.6 35B A3B
- 37,2% - GigaChat-2-Pro
- 32,6% - GigaChat-2-Max
- 14,0% - GigaChat-2 (Lite)

Время (затраченное на прогон 43 задач в 1 поток):
- GigaChat-2-Max: ~51 мин
- GigaChat-2-Pro: ~79 мин
- GigaChat-2 (Lite): ~60 мин
- GPT-OSS-120B: ~187 мин
- Qwen 3.6 35B A3B: ~15 мин

Итого

На бенчмарке pac1-dev через агента Phantom семейство моделей GigaChat-2 показало низкий результат на агентных задачах представленных в соревновании BitGN, даже по сравнению с более слабыми on-premise моделями. При этом точность работы модели Max на агентных задачах ниже чем у модели Pro.

PS. Была ещё идея провести тестирование публичный модели GigaChat 3.1 10B, но я уже ранее проводил её тестирование, результаты были слабые. Ещё очень хотелось бы провести тестирование модельки GigaChat 3.1 702B Ultra, но она к сожалению не доступна мне через API, а свободного железа чтобы запустить 702B модель под руками не имеется.

🔥32✍10❤5😁5👍1

7.57K views09:11

About

Blog

Apps

Platform