Neural Kovalskii
9.27K subscribers
380 photos
53 videos
3 files
275 links
Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat
Download Telegram
Qwen3-VL-8B-Instruct

Мультимодальная LLM на стеройдах для твоей компании?

Запустил вчера на своей 4090(48гб) дабы проверить большой контекст

Сколько стоит и как работает?

4090(48gb) (заняло почти всю память я ограничи на 70к токенов) но vLLM говорит можно 90+

30 t/s (FC/SO)
44 t/s (content)


Дал вам всем доступ попробовать модель через наш кластер

Примеры тут https://t.iss.one/neuraldeep/1654?comment=20455 (выше есть тесты)https://t.iss.one/neuraldeep/1656


Много раз спрашивали где я беру такие 4090(48)
Беру тут и с гарантией для меня даже сварганили промокод для скидки KOVALSKII (ребята делают реально крутой сервис вокруг модифицированных карт)
1🔥19👍14👏4🤯2
История трёх технологий которые изменили AI (часть 3/3)

[Часть 1] | [Часть 2]

От технологий к людям

Технологии решены:
- XGrammar дал 100% reliability
- MCP упростил интеграции до registry
- Function Calling стал стандартом

Проблема в трансформации компаний и людей

Что я вижу внедряя AI в компаниях

Компания№1: "Сделайте как ChatGPT для наших данных"
Реальность: 80% времени объясняю что агента нужно учить, он не знает все сам, да и данные у вас не очень

Компания№2: Compliance требует "всегда правильные ответы"
Реальность: учим принимать вероятностную природу AI, строить checkpoints

Компания№3: Разработчики боятся замены
Реальность: превращаем code writers в AI directors роль усложняется, не исчезает
Джуны нужны?

Наблюдения которые не ложатся в метрики:

→ Переход на AI = смена типа людей с исполнителя на менеджера
Не все переживут (вчера ребята на конфе это проговорили)
Цикл "постановка → ожидание → проверка" невыносим для некоторых

→ Tacit knowledge в организациях
Люди не могут четко выразить что знают
Им кажется очевидным, но вытащить крайне сложно

→ Неравенство усилилось
Роль конкретной личности резко возросла (сужу по себе)

→ Сеньоры открытые к AI — искал медь, нашел золото!
Внедрение сверху ("купим подписки и курсы") не работает

→ Разработка сместилась к спекам и верификации
Код генерит AI. Отбирает кайф у тех кто любит писать нужен цикл смены

→ Личная трансформация: куда девать время?
Задачи решаются в 3-5x быстрее. Свободное время появилось, но что с ним делать?
Одни идут глубже в архитектуру, другие теряются

Внедрение AI = структурные изменения = рефакторинг организаций

Технически-культурно-психологические вызовы
Надо думать над всем спектром сразу

---

"Вайб Цех"

Я совместно с red_mad_robot решил организовать "Вайб Цех" в Питере обсудить с вами то как меняется роль человека в разработке
Хотелось собрать небольшое кол-во ребят в оффлайне кто связан с AI
Показать слайды которые накопились
И поделится с вами своими мыслями
Давайте разлогинемся на один день!
Буду весь день на площадке

Обсудим трансформацию 25 октября

Не про фреймворки
Про людей


Программа:
- 10:00 — Я: от писателя кода к AI-дирижеру
- 10:20 — Саша Абрамов (SberAI): почему LLM так хороши в программировании
- 11:00 — Макс Скорченко: как перестать работать и начать управлять
- 12:00 — Секретный production case
- 12:40 — Панель: место человека в системе с AI (модерирую) СберТех, Cloud.ru и SberAI

Обсудим практически:
- Куда девать время когда продуктивность выросла в 3-5x
- Как вытащить tacit knowledge из команды для агентов
- Кто справляется с переходом исполнитель→менеджер, а кто нет
- Реальные кейсы внедрения без теории

📍 Not Bad Loft, Курляндская 48, СПб
📅 25 октября, 10:00-15:00
🎟 https://red-mad-robot.timepad.ru/event/3605115/

Offline (платно, личное общение + кейтеринг и классный лофт)

Online free link

После 15:00 — нетворкинг, разбираем ваши кейсы

P.S. Пишите в комментах: какие проблемы трансформации видите в командах?
Соберу для панельной дискуссии
3👍2313🔥12🤔1
SGR Deep Research топ 3 в open-source!

Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей

Хочу с вами поделится очень крутыми новостями!

Бенчмарк и новые фичи!

Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM
<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>

3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description

4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)

5) Я разнес тул вэб поиска на /search и /extract

5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента

Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)

Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!

Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок

Тестовый прогон на SimpleQA Verified

Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).

Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o

Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.

Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705

Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо

С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.

Оценка SGR Deep Research на SimpleQA

В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)

Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861

Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)

Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий

Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами

Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!

Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!


Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract

Полный тест такого бенчмарка обошелся в $170

Далее мы планируем оценить работу агента уже на локальных LLM

Репо: https://github.com/vamplabAI/sgr-deep-research

P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)
2852🔥4310
SGR Code Agent

Мысль от @elkornacio которая вдохновляет
Мне кажется втайне каждый разраб мечтает запилить кодового агента это же как сына растить - ты делаешь что-то, куда закладываешь логику собственного поведения, пытаешься формализовать то, как ты сам пишешь код, в набор правил


С этой мотивацией я взял SGR-core и пошел пилить Vampi, терминального агента на базе мелких моделей в PlanAct режиме для подготовки драфта проекта
3🔥47👍1710👏4
Всем привет!

Тут прокатилась волна банов openai акаунтов (моих) API использование

Кого-то тоже затронуло?

Хочу понять что детектировать начали (прокси IP спалил) или уже и запросы стали чекать на RU текст?

Или просто банхамером задело

Хочу понять системность так как отлетает 3 акк
hetzner


Update: всем спасибо за оч полезную инфу

Далее буду осторожнее

Со мной такое в первый раз ( за один акк прям обидно 2 года ему было)
1🤔11👍65🤯3
Forwarded from red_mad_robot
red_mad_robot и СберТех разработали мультиагентную систему, которая автоматически находит и исправляет уязвимости в коде

Она анализирует результаты SAST — статического анализа, который выявляет потенциально опасные места на этапе разработки. В системе несколько агентов: один собирает контекст, другой определяет, какие срабатывания действительно критичны, а третий формирует патчи и предлагает изменения в исходный код.

Результат — снижение ручной нагрузки, ускорение цикла исправлений и повышение точности анализа до 70 %.

В новой статье подробно рассказали, как устроена архитектура и зачем вообще нужен мультиагентный подход. Читайте!

#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥33👍8👏6💯3
SGR Challenge?

Шучу, Ринат открыл регистрацию на ERC3 не упусти возможность найти новые скиллы/друзей/общение/работу

Кто-то уже в нашем чатике берет и разворачивает наш проект что бы быстро пилить тулы под соревнование

Ты уже развернул sgr-core?

P.S сегодня будет релиз в main выкатим стабильную ветку из бенчмакра!

Следите за обновлениями: https://github.com/vamplabAI/sgr-deep-research
116🔥12👍3👏1
Тем временем наше комьюнити энтузиастов растет


Дошли до 3 топоров


Наш топ чатик: https://t.iss.one/neuraldeepchat

Где я еще обитаю:

https://t.iss.one/llm_driven_products
https://t.iss.one/natural_language_processing
https://t.iss.one/+tKjQsEgRPqY0ZGMy
https://t.iss.one/elkornacio_chat
224🔥14😁7
Я дождался мы завезли Артефакты!
🔥4
Forwarded from Daisy news
This media is not supported in your browser
VIEW IN TELEGRAM
🧑‍💻 Визуализируй код прямо в чате

Теперь я умею рендерить HTML-код. Попроси меня написать код для сайта, презентации или слайда. Нажми «Развернуть» и сразу увидишь, как идея превращается в готовый результат. Это удобно, если нужно проверить вёрстку или визуализировать концепт перед показом команде. В следующих релизах появится возможность экспортировать такие артефакты, чтобы делиться ими вне Daisy.

Попробуй собрать свой первый HTML-слайд прямо сейчас 👇

⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot

#DaisyNews
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1664😁1
Qwen3-vl-32b вышла

https://huggingface.co/Qwen/Qwen3-VL-32B-Instruct


Разворачиваю и выдаю доступ?)
Готовы тестить?

Тут нам нужно будет две 4090(48гб) и такие есть у меня, пошел выкачивать…✈️
1🔥2563
1 фотка DS в обычной компании
2 фотка DS в промышленной

authors

@mixaill76
@MartianovTech
1😁2015🤯3
Cтабильный релиз sgr-core 0.3.0

What's Changed
fix tool calling agent _select_action_phase behaviour by virrius in #45
Simple cli example client for getting started and testing by kv-gits in #32
Benchmark simpleqa by maksimov-m in #43
Feat: Декомпозиция и перенос тулов в пакет core.tools by EvilFreelancer in #48
Fix/remove dynamic date from prompts by vakovalskii in #51
New readme and contributing by maksimov-m in #49



Навели красоту в README и с логикой агента в цеом
Закрепили результаты бенчмарка

Продолжаем улучшать!

Всем причастным огромное спасибо!


Релиз: https://github.com/vamplabAI/sgr-deep-research/releases/tag/0.3.0
7🔥52124👏3
«Личная эффективность: как хоть что-то успевать в 2025?»


Сразу спойлер НИКАК

Но я точно знаю ребята разберут этот кейс со своих сторон!

#безвотэтоговотвсего

Сегодня Серега снова проводит пушечную крутую 21 встречу с топ спикерами!


P.S. Для тех, кто не успел зарегистрироваться - ссылочки на трансляции:

VK Video
Yotube


И кстати более детально я так же разберу личную эффективность с ИИ кодерами на нашей конфе (успей попасть на регу)
18👍5🔥4