Neural Kovalskii

Nano Banao tralalero tralala

Вот и у меня дошли руки поиграться в простом кейсе "генерация принтов на одежде" с этой моделью

Пошел искать, и собирать заказ где мне такое сделают

13🤣24🔥129🤯1

5.65K views19:04

Neural Kovalskii

Forwarded from эйай ньюз

Несколько месяцев назад я ушёл из Meta GenAI, чтобы запустить свой стартап.

И сегодня будет первый шаг выхода из stealth-режима 🚀На самом деле он был уже вчера, но только сегодня добрался сделать пост на русском ;)

По традиции фруктового нейминга в AI комьюнити, я добавляю в корзину еще и персики — встречайте GenPeach.AI 🍑

Мы - Европейская GenAI ресерч лаба (headquaters в Цюрихе), которая обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны). Цель наших моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах. Но и для application слоя у нас есть свои планы - ждите апдейтов:)

Другими словами, сейчас у нас фокус на том, чтобы добиться максимального реализма, контроля и эффективности в генерации фото- и видео-сцен с людьми.

Наши модельки еще готовятся, но мы уже открыли Waitlist для тех, кто хочет получить к ним доступ раньше других и поучаствовать в бета-тесте!

🚩

Чтобы записаться в Waitlist откройте бота: @genpeach_ai_bot

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥20👍7❤5

3.92K views16:59

Neural Kovalskii

Forwarded from Data Secrets

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

SGR Deep Research: как из чёрного ящика агентов сделать прозрачную и надёжную систему

Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца.

Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия.

Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона:
– мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик,
– сложно отлаживать и объяснять решения модели,
– A/B-тестирование и контроль качества превращаются в боль.

Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока.

Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода.
Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод.

От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места.

Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта.

А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие.

Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте.

Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано:

➖ Вызов инструментов по схеме Schema-Guided Reasoning. Причем подход гибридный, с двухфазной архитектурой: принудительное структурированное рассуждение (JSON Schema) + детерминированное выполнение. Это позволяет даже 4B моделям проявлять агентные свойства, недоступные через классический Function Calling.
➖ Прозрачное логирование на каждом шаге: от уточнения запроса и генерации плана до веб-поиска, анализа и финального отчёта, все трекается.
➖ Работа на легких моделях вроде gpt-4o-mini и qwen instruct от 4b до 32b (+можно подключать свои).
➖ OpenAI-совместимый API с персистентными агентами: каждый агент получает уникальный ID для продолжения исследования.

Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API.

Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться.
– Если есть идеи – обязательно идите с ними к Валере.
– Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию.
– И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити.

Еще раз:
Ссылка на проект
Ссылка на канал Рината – автора идеи
Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥51❤18👍6💯3

3.07K views09:54

Neural Kovalskii

Forwarded from Чуковский

Schema-Guided Reasoning

В профильных LLM-каналах начал набирать популярность термин SGR (Schema-Guided Reasoning), но по какой-то причине народ не всегда понимает, что он обозначает, и зачем нужен. Никакого секрета нет, главное запомнить одно уравнение:

SGR = SO + COT

Из чего складывается Schema-Guided Reasoning:

1️⃣Во-первых, нам нужна модель, которая поддерживает Stuctured Output (SO) - возможность управлять результатом работы LLM, "зануляя" вероятности токенов, не подходящих под описанную нами грамматику, прямо во время выполнения.

2️⃣Во-вторых, нам нужно определить структуру желаемого ответа так, чтобы она "помогала" модели мыслить (тот самый Chain-Of-Thought).
Мы как бы «заставляем» модель пройти определенные этапы размышления перед тем как дать ответ, чтобы в результате вероятность корректных токенов ответа была выше.

Отличным примером использования такой техники является бот для дип-ресерча на открытых модельках sgr-deep-research, разработанный автором канала @neuraldeep:

🟢Сначала (скриншот 1 в комментах) мы определяем несколько классов, которые описывают шаги размышления модели. Например, когда модель хочет сгенерировать список уточняющих вопросов - она должна сначала описать себе причину, зачем ей это уточнение потребовалось, далее перечислить список терминов, которые она не поняла, предположить что они обозначают, и только после этого сгенерировать вопросы пользователя

🟢Одновременно с этим, для описания шагов размышления мы используем Pydantic-классы. Зачем? Чтобы можно было их отправить в LLM в качестве грамматики, ограничивающей результат. Теперь, если LLM решит выполнить шаг «Уточнение вопроса», она обязательно должна будет пройти указанные выше шаги, и это ограничение будет завернуто прямо в движок ее инференса. Модель просто физически не сможет отойти от схемы и начать генерировать что-то нерелевантное (почти всегда, но об этом позже)

Далее, эти шаги объединяются в цепочку (скриншот 2), которая представляет собой финальный ответ, и структура которой будет отправлена в LLM в качестве промпта.

И вот на этом этапе, становится понятно, зачем понадобился вообще SGR, и в чем его преимущество относительно других методов. Для того, чтобы сгенерировать следующий шаг в размышлениях, LLM обязательно сгенерирует:
🟢1-4 предложения, как она видит текущую ситуацию;
🟢статус выполнения плана исследования, закончен ли он, сколько еще шагов нужно пройти
🟢сколько еще шагов поиска она может сделать
🟢достаточно ли ей данных для отчета
🟢и только после этого, она сможет выбрать инструмент, который будет запускать (или доуточнение, или веб-поиск, или генерация ответа).

Для больших моделей, такой подход часто избыточен - они и так достаточно умные, чтобы рассуждать прямо "из коробки", и всегда следовать нужной инструкции.
Но если ваша модель относительно небольшая, и может легко отклоняться от инструкций, или она недостаточно хорошо их выполняет, то такие вот "рельсы" в виде Structured Output + зашитый в ответ процесс размышлений в стиле Chain-Of-Thought могут дать значительный прирост качества на ряде задач.

Конечно, у такого подхода есть и минусы, и его тоже нужно правильно готовить, но об этом как-нибудь в другой раз

@korneychukov

Please open Telegram to view this post

VIEW IN TELEGRAM

4👍34❤18🔥5

4.57K views07:13

Neural Kovalskii

Дядя делает очень крутые обзоры
Добей ему 10к что бы он стал сми!
230 подписок осталось
https://t.iss.one/dealerAI

Dealer.AI

Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys и др.

Для связи @dealer_ai
(реклама и консультации)

Руковожу ML, AI командами.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885

😁16👍51

7.1K viewsedited 17:49

Neural Kovalskii

Forwarded from Dealer.AI

Новый быстрый REFRAG — не очень сильно-то и хотелось.

Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩

Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п. Святые люди да? 🧖

Поэтому, конечно, давайте все нафиг усложним.

😌

Итого, идея:

1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.

2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п. Опа, плюсуем модельку в пайп.

🗒

3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать. Ну и опа еще одна моделька в пайп.

🗒

4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.

5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.

Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.

И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.

Статья тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

💯18🔥8😁7❤2

4.84K views17:49

Neural Kovalskii

Cursor System Prompt

Наверное вы уже видели разные репо с системным промптом cursor

Из команды разработки SGR попросили посмотреть логи через свое прокси LiteLLM дабы подтвердить сей факт
И как всегда первая проблема все логи в моей версии прокси делают вот так ... (truncated 7765 chars)"

Пошел мучать клод на тему "поищи в интернете" "как убрать в UI/BD truncated logs"
Весь поиск и попытки применить рекомендации от клода привели меня на этот issues

Где ребята прекрасно обошли эту настройку патчем

FROM ghcr.io/berriai/litellm-database:main-latest

RUN sed -i.bak 's/MAX_STRING_LENGTH = 1000$/MAX_STRING_LENGTH = 100000/' \
/app/litellm/proxy/spend_tracking/spend_tracking_utils.py && \
cmp -s /app/litellm/proxy/spend_tracking/spend_tracking_utils.py{.bak,} && exit 1 || true
RUN cd /app && pip install .

Далее имеем репо

https://github.com/vakovalskii/cursor_agent_flow

Я запустил очень простой флоу в 3 запроса
1) Понять где мы
2) Проанализировать директорию
3) Сделать поиск по кодовой базе

Cursor использует многослойный системный промпт с отдельными секциями для каждого аспекта поведения:

<tool_calling> - строгие правила работы с инструментами
<maximize_context_understanding> - обязательная тщательность исследования
<making_code_changes> - гарантия работоспособности кода
<task_management> - активное планирование через todo_write
<memories> - персистентная память между сессиями

Все это для меня подтверждает правдивость этого вот репо

Что бы знать матчасть в нее надо уметь!

Репо с моими логами: https://github.com/vakovalskii/cursor_agent_flow

1🔥21❤11👍3

5.98K viewsedited 00:07

Neural Kovalskii

Forwarded from Dealer.AI

У нас тут осень крепчает, будьте осторожны.

#meme

😁38🤣20👍3

4.66K views08:36

Neural Kovalskii

SearXNG Tavily Adapter: когда жаба душит платить за поиск 🐸

Надоело тратить деньги на Tavily при тестировании агентов?
Мне тоже! За вечер сделал решение

Проблема: Tavily API съедает бюджет при разработке research агентов
Уже на тестах улетело больше $100 а это мы еще к бенчмаркам не перешли

Решение: SearXNG (open-source метапоисковик) + мой адаптер = drop-in замена Tavily достаточно поднять и сменить base_url уже звучу как маркетолог (нет)

# Было (платно):
client = TavilyClient("tvly-дорогой-ключ")

# Стало (бесплатно):  
client = TavilyClient(api_base_url="https://localhost:8000")

Точно тот же API, но:
$0 вместо $$$$$$$$$$
Полная приватность
Без лимитов запросов
Web scraping для research агентов (только вот raw_content на bs4)
70+ поисковых движков под капотом (bing сразу в бан!)
погоду он находит при запросах "прогноз цены биткоина 2026"

Быстрый старт:

git clone https://github.com/vakovalskii/searxng-docker-tavily-adapter
docker compose up -d
# Готово! API работает на localhost:8000

Эффект жабы удовлетворен теперь могу тестировать
research агентов сутками за $5/месяц сервера вместо API лимитов!

GitHub: https://github.com/vakovalskii/searxng-docker-tavily-adapter

P.S. SearXNG существует годами, но мало кто знает что из него можно сделать замену коммерческих API!

Не забываем ставить звезды в репо!

GitHub

GitHub - vakovalskii/searxng-docker-tavily-adapter: searxng-docker-tavily-adapter

searxng-docker-tavily-adapter. Contribute to vakovalskii/searxng-docker-tavily-adapter development by creating an account on GitHub.

127🔥93👍20❤1611

6.9K viewsedited 22:19

Neural Kovalskii

SGR Deep Research v0.2.0

Один из самых крутых подарков на мой др сегодня, еще вчера был др у моей Жены, так совпало что у нас разница в один день мы две дико разные Девы =)
Она, кстати, главный спонсор запятых в моих постах

Спасибо всей команде sgr что принимает участие в разработке core ядра для последующего тестирования.
Архитектура и основная реализация в коде - Артём

Ревью, код и идеи с организацией проекта - Павел

Ревью, инфраструктура и идеи с организацией проекта - Михаил

- Определили базовые сущности агента, его тулов
Выделили три основных этапа: reasoning, select_action, action
- Собрали 5 агентов, разных по принципу работы, добавили их в api
- Структурировали логирование работы агента
- Внедрили и затестили вебсёрч на базе бесплатного движка
- Пересмотрели организацию библиотеки, провели множество улучшений в коде

Как сказал наш NLP Lead
«SGR это как ReAct агент с вайбом декларативного агента»

Нас ждут тесты тем временем sgr-deep-research набрал 400+ звезд я уже получаю фидбек что данный подход начинают применять в крупных РФ компаниях

Напомню что наше дело лишь демонстрация еще одного инженерного подхода, на прорыв и истину мы не претендуем

Если вы хотите поблагодарить команду SGR, ускорить разворачивание постоянного доступа к агентам я решил сделать ссылочку для донатов на сервер с 5090 который расположу в своей северной

Репо: https://github.com/vakovalskii/sgr-deep-research

732🔥62👍8👏6❤1

10.6K viewsedited 14:47

Neural Kovalskii

Forwarded from LLM под капотом

Давайте соберем карту внедрений SGR и список частых вопросов по ним

В коммьюнити идут обсуждения про Schema-Guided Reasoning, в основном в контексте Open Source проекта SGR Deep Research. Этот проект для некоторых команд стал первым наглядным примером того, как подойти к задаче построения умного агента на базе относительно небольших моделей (в том числе и локальных). Чаще всего слышим про попытки адаптировать методы в банковской сфере и промышленности. Может быть нас еще больше?

Давайте вообще систематизируем весь этот процесс и сделаем его эффективнее для коммьюнити!

Вот анонимный опросник, чтобы построить более полную карту внедрений по отраслям и собрать вопросы. Опросник: Строим вместе карту внедрений SGR

Результаты опроса и ответы на самые частые вопросы будут в каналах:

- LLM под капотом
- Neural Kovalski

Ваш, @llm_under_hood 🤗

❤16👍10🔥6

3.36K views09:43

Neural Kovalskii

Forwarded from LLM под капотом

В каких компаниях вопросы про SGR стоят острее всего?

Это предварительные данные опроса ранее.

Выборка пока не очень большая, но уже предварительно видно, что больше всего вопросов возникает у компаний размером 11-50 человек, которые работают в Business Services и хотят попробовать внедрить методы/агентов на базе SGR в продажи или маркетинг.

Medical, финтех и производство идут следующими.

Цвет на графиках тем интенсивнее, чем больше вопросов про SGR возникает, мы это будем использовать при приоритизации ответов.

Опрос еще идет, можете оставить свои вопросы вот тут (или переслать коллегам для заполнения): Русский / English.

Ваш, @llm_under_hood 🤗

❤10👍7🔥4

3.33K views09:29

Neural Kovalskii

Forwarded from LLM Arena

📈

Рейтинги LLM теряют доверие

Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.

👀

Ключевые данные:

— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.

— 26,7% принципиально не опираются на рейтинги.

— Лишь около 18% обращаются к агрегаторам по типу llmstats

Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой

📄Отдельная ценность исследования — мы постарались отразить мнение участников рынка таким, какое оно есть: с аргументами «за» и «против», со скепсисом и практическими отзывами. Полный отчёт с графиками, аналитикой и комментариями уже доступен на сайте.

P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍10🔥3

3.53K views15:04

Neural Kovalskii

SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут

Репо: https://github.com/vakovalskii/sgr-deep-research

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥28👍12❤8

5.71K views15:19

Neural Kovalskii

Сегодня с утра был очень интересный звонок, отдельное спасибо Ринату что смог уделить время

Обсудили ERC2-ERC3

Затронули карьеру и историю как попал в LLM

Так же обсудили судьбу SGR, и что сообщество сделает свое дело!

А когда-то канал я начал вести читая @llm_under_hood, когда там было 4к подписчиков

1🔥67😁9👏73

4.83K views20:06

Neural Kovalskii

Forwarded from Филиппов Дмитрий - Агент LLM

Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA.

Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini.

🤔 Почему это важно?

Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей.

Мы сравниваем два подхода:

1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub

2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)

📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.

Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.

Далее подробнее о результатах, проблемах и их решениях.

⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

10👍34🔥14❤2🤔1

5.1K views09:38

About

Blog

Apps

Platform