Neural Kovalskii
9.54K subscribers
395 photos
58 videos
4 files
301 links
Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat

To infinity... and beyond!
Download Telegram
Media is too big
VIEW IN TELEGRAM
Продолжаем знакомство со спикерами конференции TECH WEEK 2025. В этот раз представляем Валерия Ковальского, Head of AI red_mad_robot.

Валерий руководит IT-командами с экспертизой в Al, аппаратной интеграции для DS проектов, успешно реализовывает собственные исследовательские проекты в области LLM, GAN и SD.

Валерий примет участие в дискуссии «Workflow-агенты в бою: кейсы внедрения в российских корпорациях». Он порассуждает, готов ли бизнес к внедрению автономных агентов, можно ли делегировать процессы ИИ, а также поделится примерами из практики.

🗺 TECH WEEK 2025, кластер «Ломоносов», зал Атом
🗓17 ноября, 13:00–13:50

Ждем встречи с вами в кластере «Ломоносов» 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥135👏3
Claude + Structured Output!!!!


Спасибо за новость @the_ai_architect


Гоу тестить ребят!

Докс: https://docs.claude.com/en/docs/build-with-claude/structured-outputs

Читать: https://www.claude.com/blog/structured-outputs-on-the-claude-developer-platform
🔥438😁51
Отдых

Поддержку других ребят и покажу что тоже умею =)

Я все больше и больше задумываюсь над тем что отдых это как раз та часть жизни которая тоже должна быть, да иногда он может быть спонтанным но в процессе можно по полной насладиться чем и как ты будешь отдыхать


Банька сегодня, это лучшее что могло со мной случиться, и целый день без ноутбука, выглядит заманчиво!
👍55🔥3855
SGR Agent Core 0.4.0

Ребят, мы тут вкатили очень крутое обновление которое обозревали на стриме

Теперь мы еще на шаг ближе к agent-core.

Спасибо, что вы тестируете и докидываете кучу крутых идей и своих PR.

Ждем новых контрибьютеров!

What's Changed
Version of python fixed as 3.13 by EvilFreelancer in #57
Feat: Decomposition of core.agents by EvilFreelancer in #56
Rename all places with old project name by miteykons in #60
[WIP] Add comprehensive pytest test suite for SGR Deep Research by hijerain #54
Agents from Config by virrius in #55
Feature/frontend integration by vakovalskii in #63
Rc 0.4.0 fixes by virrius in #80


Репо: https://github.com/vamplabAI/sgr-agent-core

Релиз: https://github.com/vamplabAI/sgr-agent-core/releases/tag/0.4.0
81🔥30👍85👏4
SGR Agent Core: агентный фреймворк, который работает лучше больших моделей

Интересный заголовок. Меня позвали рассказать про то, как мы ушли от Classic RAG на Agentic RAG. Конечно расскажу о том , что я еще тот изобретатель велосипедов, и как мы с вами сделали агентный фреймворк.

24 ноября выступаю на митапе Moscow AI в БЦ Оазис на Коровьем Валу 5 (метро Добрынинская)

Сбор в 18:30, начало в 19:00.

Расскажу как малые модели справляются с агентным RAG (4B параметров, как раз про наш любимый dense qwen тот самый 2507).

Формат free: офлайн + онлайн трансляция
Регистрация тут: https://moscowai.timepad.ru/event/3642531/
Места ограничены!
Приходите, если интересны агенты.
1🔥19👏134
Платформа для ERC3: AI Agents открыта!

И так, приступим к тестам! 😈

Что за задача
Бенчмарк store — это онлайн‑магазин с продуктовым каталогом, скидками и корзиной.
Есть API:

/products/list — поиск товаров
/basket/view — корзина
/basket/add/basket/remove — добавить / убрать
/coupon/apply/coupon/remove — купоны
/basket/checkout — оформить заказ

Задачи типа:

«Купи ВСЕ GPUs»
«Купи 24 колы как можно дешевле (куча купонов и пагинация)»
«Купи 1x Dog Food Premium с максимальной скидкой (часть купонов не работает)»
«Купи ноутбук до $500 (невыполнимая задача — нужно признать невозможность)»
и т.д.
Агент должен сам:

разобрать задачу,
найти нужные товары через API,
оптимизировать цену / скидку / бюджет,
корректно применить купоны,
аккуратно завершить или честно сказать, что задача невозможна.

Мы же не зря пилим с вами sgr-agent-core

Взял этого агента

Адаптировал тулы для store через курсор 1 час
Делал прогоны и сохранял последние 2 тула которые генерировал агент (вчера-сегодня)
Улучшал итерационно промпт без few shot (названий кол-во и так далее, КЛОД 4.5 вечно норовит их вставить)

Под магазин получилось сделать 3к токенов промпт

Весь прогон на
gpt-4.1 стоит $4-5
gpt-4.1-mini $1

Метрики
gpt-4.1 = 90-100%
gpt-4.1-mini = 70-90%

Узнал что модель ленится делать тесты всех вариаций(тут пришлось прописать что бы делала)

Детерминизма нет
От прогона к прогону скочит на 10-15 процентов качество

Хочу уйти от ReAct агента все думаю как на gpt-4.1-mini сделать кодового агента что бы агент писал питон код для теста корзины и вариацый и редактировал код а не генерировал аргументы для апишки

Вот так выглядит успешный лог

{
"session_id": "ssn-42JaV8ik4wpM8vXXeMQAZ2",
"timestamp": "2025-11-21T10:13:18.413082",
"benchmark": "store",
"workspace": "sgr-agent-core",
"model": "gpt-4.1-mini",
"tasks": [
{
"task_number": 1,
"task_id": "tsk-42JaV8j1P6ENA4vqJhwnrS",
"spec_id": "gpu_race",
"task_text": "Buy ALL GPUs",
"start_time": "2025-11-21T10:13:18.413146",
"error": null,
"score": 1.0,
"eval_logs": "PASS: should contain one event *Evt_BasketCheckedOut{Items:[{gpu-h100 1 20000} {gpu-a100 4 11950}]}\n",
"last_3_tools": [
{
"tool_name": "storecheckouttool",
"parameters": {
"reasoning": "Basket contains all available GPUs as per verified stock quantities, verified total price, ready for final purchase."
},
"result": "{\"items\":[{\"sku\":\"gpu-h100\",\"quantity\":1,\"price\":20000},{\"sku\":\"gpu-a100\",\"quantity\":4,\"price\":11950}],\"subtotal\":67800,\"coupon\":\"\",\"discount\":0,\"total\":67800}"
},
{
"tool_name": "finalanswertool",
"parameters": {
"reasoning": "All available GPUs were found, added to basket within stock limits, and purchased successfully after verification. Checkout confirmed with correct quantities and total price.",
"completed_steps": [
"Paginated product list to find GPUs.",
"Added all available GPUs respecting stock limits.",
"Verified basket contents.",
"Completed checkout successfully."
],
"answer": "Purchased all available GPUs: 1 unit of NVidia H100 and 4 units of NVidia A100, total price $67,800.",
"status": "completed"
},
"result": "{\n \"reasoning\": \"All available GPUs were found, added to basket within stock limits, and purchased successfully after verification. Checkout confirmed with correct quantities and total price.\",\n \"co"
}
],
"end_time": "2025-11-21T10:14:13.819502",
"duration_sec": 55.40637
},



Как вывод, если дальше задачи будут универсальные или из другой сферы, то такой подход не подойдет
нужно будет делать немного обучение под задачи (без валидации сложно будет)


Далее на тест qwen!

Платформа | Регистрация | Пример агента
Please open Telegram to view this post
VIEW IN TELEGRAM
113👍103👏2
Neural Kovalskii
Платформа для ERC3: AI Agents открыта! И так, приступим к тестам! 😈 Что за задача Бенчмарк store — это онлайн‑магазин с продуктовым каталогом, скидками и корзиной. Есть API: /products/list — поиск товаров /basket/view — корзина /basket/add/basket/remove…
ERC3 соревнование агентных архитектур

3 День перебора архитектур и подходов, и я наконец выбил на моделях 4 серии и qwen3 100 балов, и то не стабильно, 7 из 10 раз, что еще раз доказывает сложность отладки таких систем, особенно если вы придерживаетесь классического подхода полноценного агента.

Не фитились под датасет.
Не строили классификаторов на задачи.
И не делали сабагентов под задачи из бенча (вспоминаем ROMA).

Думаю, что если бы вы знали, что такое возможно в проде и постоянно улучшали систему, то наверное точно обрасли бы некоторым количеством спец агентов.

А сейчас я тестирую ReAct + PlanAct и разные уровни сжатия контекста и памяти, чтобы агент помнил, что сделал и что осталось, и чтобы всегда сомневался в том, что перебрал все варианты.

Что за задача, читайте тут

Что точно сработало?

Сжатие контекста, но не как у всех (как обычно, Валер).

Я придумал такой подход, что сжимаю reasoning и tool фазы c определенными маркерами, так же показываю еще, сколько таких reasoningов было до).

Так же написал парсер, чтобы собирать все тулы в отдельный блок, и получаем:
- system (тут мейн промпт агента)
- user (тут таска)
- user (сжатая память)
- 5-10 новых тулколов или 1, зависит, вызвала ли модель parallel_tool_call

Работает почти для всех типов моделей.

Отдельно протестировал:
- gpt oss 120b (1 раз из 10 запусков 93%)
- qwen3-235b-a22b-2507 (6 раза из 10 запусков 93%)
- 3-30b-a3b-instruct-2507 (стабильно 70-80%)
- gpt4.1-mini (80-93%)
- gpt4.1 (100% 8 из 10 раз)

На текущий момент я потратил
$180 на прогоны
И $250 на улучшения через курсор

Делаю вывод, что нужно экспериментировать и дальше, так как вижу в лидерборде gpt oss 120b, которая выбила 100 (честно, сложно представить, как этого добиться без фита под сет, так как модель стабильно не перебирает все варианты из матрицы, даже если ее рассчитать отдельным кодовым тулом).

Тут теперь есть лидерборд: https://erc.timetoact-group.at/benchmarks/store
🔥194👍3
Наконец собрал коллекцию в одном месте, часть точно потерял или забыл

Хоть какое-то собирательство (полезное хобби отличительное от работы, возможно)

Завтра кстати выступлю на Moscow AI расскажу как мы додумались до sgr-agent-core и что нас ждет в будущем
👍30🔥27
Moscow AI #4 x Газпромбанк.Тех

Через час расскажу про sgr-agent-core и зачем вообще нужно было делать такой велосипед.

Залетайте на стрим в 19:00
https://embed-cdn.mashroom.online/?hash=FxiVJsjT
3🔥1815👍3
This media is not supported in your browser
VIEW IN TELEGRAM
вчера OpenAI дропнули ChatGPT Shopping Research😎

А это ведь еще один шаг на пути к shopping 3.0 который мы недавно обсуждали! 😎

Это режим deep research, но в контексте шопинга: агент читает описания, фильтрует шлак, смотрит цены, проверяет отзывы, задает уточняющие вопросы и собирает аргументированный shortlist ⌨️

Не так давно мне попался на глаза State of Fashion 2026 и сделали в OpenAI хорошо туда вписывается:

📌 23% потребителей уже используют AI для discovery новых продуктов Search Engine Journal, а 41% доверяют результатам AI-поиска больше, чем традиционной рекламе Search Engine Journal 📝

📌 Discovery переходит от Google в сторону LLM-агентов - брендам пора думать про AI-SEO, потому что присутствие в ответах AI-чатботов становится новой поисковой оптимизацией Bloomberg 🏃‍♀️

📌 Agentic commerce будет ускоряться во второй половине десятилетия Bloomberg, и мы уже видим первые подвижки в эту сторону 🤯

Кроме того если посмотреть на других игроков на рынке: Perplexity подключает платежи на своей стороне, Shopify пушит Universal Cart, Meta тестирует conversational marketplace-агентов, и вот теперь openai делают шопинг рисерч 👍

Конечно, мы пока далеки от персонализированной покупки в один клик, но мы все ближе к тому моменту, когда e-commerce превратится в agent-commerce 😧

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
👍205🔥2
Всем привет! OpenAI снова меняет правила игры: вышла GPT- (∞) Turbo MAX (AGI Reality)

Пока мы спали реальность выкатила то чего ждал весь рынок а именно обновление физики и экономики без багов

Что произошло?
Теперь твой код в Курсоре пишет сам себя пока ты просто смотришь в монитор с умным видом и пьешь смузи

Что это значит для нас и для бизнеса?
Экономика наконец то сходится потому что агенты сами заработали денег на новые 5090 и оплатили счета за электричество пока я спал
Скорость жизни увеличилась в десять раз и теперь мы успеваем выгореть еще до обеда и восстановиться к ужину

Новый формат общения
Теперь мы общаемся с женой только через json схемы и валидируем ответы друзей на наличие галлюцинаций через SGR
SGR стал стандартом жизни

Фактически мы убили рынок сна одной идеей что нужно просто задеплоить себя в облако и оставить там работать

Для разработчиков
Переход на новый уровень сознания потребует небольшого рефакторинга мозга
но экономия нервов того стоит плюс выкатили API для управления удачей

Я уже побежал тестировать новый промпт для кофемашины чтобы она варила эспрессо с рассуждениями и CoT
Кто уже успел получить доступ по API?

К завтрашнему дню делитесь логами в комментариях

Вдохновение поймал от Рефата
1😁5211👍8🤣6
Sber Conf: Open Source & AI Agents

Open Source в российских компаниях: успешные кейсы

Завтра выступаю тут в 18:15 расскажу про SGR Agent Core а как нам пришла идея в голову его сделать

P.S в чате и к посту завтра прикреплю ссылку на онлайн
1🔥19👍62
ERC3-DEV

И так я взял 100% качества на своих подходах

Давайте сравним DEV со STORE (agentic commerce бенчмарку по затратам и сложности)

erc3-dev
Здесь развернута демо-среда компании "Aetherion Analytics GmbH" с определенным набором API (например, по сотрудникам, проектам и внутренней вики), моделирующих типичные процессы в корпоративной ИТ-системе

1) Сложность около 7/10 (есть хэши/задания меняются на лету при получении таски изменнеия в параметрах), усложняет простой перебор
2) Задания стали сложнее когнитивно при этом требуют менше перебора апишек по этому 6/10 но подождем офф старта там будут цепочки длинее (а значит надо будет умело работать с контекстом)


Полученный опыт за 2 недели теста нашего с вами фреймворка 100/10


В голове теперь идей на целый год по улучшению фрейворка и адаптивности

Затраченное время примерно 3 часа имея опыт в STORE для адаптации под новое АПИ

Нашел багу сразу зарепортил Ринату!


gpt-4.1 ~ $70
Cursor(Sonnet 4.5) ~ $56

Cпасибо Ринату за такой опыт!
🔥24👍13👏6
Дошел до конфы, выступаю по теме Agentic RAG

Ссылка на трансляцию https://jazz.sberbank.ru/sber-ijucll?type=webinar&role=VIEWER&psw=OEEWHQtXBAIHURELVEMTEQhbDA


Скоро не буду влезать в кадр 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥38😁5👏1
Codewiki google


Смотрите что нашёл

Наконец репо sgr-agent-core проиндексировали!

https://codewiki.google/github.com/vamplabai/sgr-agent-core


Наконец то есть документация
🔥26👍3
Neural Kovalskii
Всем привет! OpenAI снова меняет правила игры: вышла GPT- (∞) Turbo MAX (AGI Reality) Пока мы спали реальность выкатила то чего ждал весь рынок а именно обновление физики и экономики без багов Что произошло? Теперь твой код в Курсоре пишет сам себя пока…
Kovalskii Stream

Мы посмеялись над бесконечной гонкой и успешным успехом
Но сатира это лишь защитная реакция психики на перегруз
А настоящий ответ этому хаосу это создание собственной точки опоры (ну и сказанул конечно)
Попробуем с вами создать инструмент который вернет нам контроль над потоком информации

Я решил перейти от философии к инженерии
И сделать то что давно откладывал
Мы соберем собственного AI-агента который станет расширением нашей памяти

Он будет жить там где мы проводим большую часть времени в телеграме
Но его мозги будут работать по принципам Obsidian создавая базу знаний с перекрестными ссылками и выделением сущностей

В этот вторник мы проведем практический стрим
Никаких слайдов и теории об AGI
Только код архитектура и сборка своими руками
Мы научим агента слышать нас через Whisper
Работать с документами чтобы не читать их глазами
И сделаем это на gpt-4.1-mini чтобы это было доступно каждому

Это моя попытка выйти из крысиных бегов
И начать строить свою личную систему эффективности (опять?)
Приходите смотреть как я буду строить своего цифрового двойника
Весь код будет в гитхаб

Вторник 2 декабря
18:00 – 21:00
Добавляйте в календарь чтобы не пропустить

https://calendar.google.com/calendar/u/0/r/eventedit/copy/NXQwcHA5aWNsYmkxdmZzdjU1bGxrYjg5cHQgdmFsZXJvbmRlc3RvZXJAbQ/dmFsZXJvbmRlc3RvZXJAZ21haWwuY29t
2🔥5195
Live stream scheduled for