LLM под капотом
18.1K subscribers
262 photos
5 videos
10 files
500 links
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Download Telegram
Красивое демо бизнес-ассистента с SGR на Python

Спасибо Виталию (@vitalii_ask) за версию агента с красиво оформленной визуализацией!

Код работает аналогично версии на Python, но с более симпатичным оформлением и отображением результатов работы инструментов. Заодно сохраняет результат работы в markdown отчет. Фреймворки те же.

Ссылка на Gist

Если портируете на другой стэк или сделаете еще более красивую визуализацию - пишите мне и прикладывайте скриншот работы последней задачи. Я их обязательно тоже опубликую.

Ваш, @llm_under_hood 🤗
🔥28👍1410🤯1
Меня сегодня спросили - есть ли идеи по поводу следующего Enterprise RAG Challenge?

Я сказал, что есть две:

(1) Сделать ERC, как он был в прошлые два раза (поиск ответов на вопросы в отчетах), но заранее подготовить базовый стенд, в котором реализованы простые pipelines. Команды смогут взять этот код и работать над его улучшением. Веселье с парсингом документов и таблиц гарантировано.

(2) Сделать Enterprise Reasoning Challenge, где команды получают легковесную среду, которая симулирует небольшую компанию с внутренними системами (ERP/Emails/CMS итп). Это похоже на симулированный пример из демки бизнес-ассистента, но с бОльшим количеством доступных сервисов.

И задача - написать такого агента, который получает задачки текстом (как корпоративный чатбот), а потом использует доступные ему инструменты для выполнения этих задач. Самая простая реализация - просто воткнуть все доступные сервисы как MCP/Tool Calling в LLM.

Вам какая идея больше нравится для дружеского соревнования этой осенью? И почему?

Ваш, @llm_under_hood 🤗
👍6016🔥10🤯4😢2
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1

Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.

Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):

- Fireworks
- Cerebras
- Groq

Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).

NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.

Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.

Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.

Ваш, @llm_under_hood 🤗
30👍20🔥11😁1
Какая самая маленькая LLM, которая может управлять бизнес-агентами?

Участники сообщества и курса решили выяснить это и допилили SGR демку до состояния, что она внятно запустилась на Qwen3-4B 🤯 ибо:

тут был спортивный интерес добиться чего то вменяемого от такого размера


Среди изменений:

- убрали OpenAI SDK, заменив прямыми запросами к локальной модели (llama.cpp для inference модели `Qwen3-4B-Instruct-2507-Q8_0`)
- добавили инструкций в промпт, прописав явно некоторые правила
- добавили еще одно reasoning поле в самое начало SGR каскада в NextStep

Посмотреть эту версию можно тут: gist

Спасибо @amekhrishvili за порт!

Ваш, @llm_under_hood 🤗
🔥6122👍16👏3
А вы знаете, что пост про демку бизнес-ассистента с SGR под капотом - это самый тщательно скрываемый секрет нашего коммьюнити?

Если верить статистике Telegram, этот пост люди пересылали в личке разы чаще, чем все остальные посты, но никто не шарил этот пост публично.

Правда секретом это будет оставаться не так долго. Следующий ERC (это наш формат соревнований) точно будет про Enterprise Reasoning Challenge, где командам нужно будет построить агента или мультиагентную систему, которые смогут использовать предоставленные им API, чтобы распутывать корпоративные задачки. Все как в SGR демке, только чуть масштабнее.

Событие планируется осенью/зимой. Точные сроки зависят от того, как быстро раскачаются отделы маркетинга в TimeToAct и IBM. Тестовый прогон будет точно этой осенью.

Формат проведения будет примерно аналогичен прошлому Enterprise RAG Challenge: команды со всего мира, небольшой призовой фонд, максимально открытые исходники и публичный сравнительный анализ результативности различных архитектур.

Возможно, все вместе сможем обнаружить новые паттерны в построении агентских систем для бизнеса.

Ваш, @llm_under_hood 🤗
🔥10323👍14😁6🤣1
Forwarded from Dmitry Nik
Попробовал в деле Schema Guided Reasoning - перевёл на неё скрипт составления протокола встречи по транскрипту встречи.

Результаты:
1. Того же качества протокола удалось добиться за один запрос к LLM вместо четырёх ранее.
2. Протокол стал чуть более осмысленным (но это не точно), так как схема направляет "движение мысли" модели.
3. Это работает на обычных (не размышляющих) моделях.

Я в восторге!
Спасибо @llm_under_hood за культпросвет!

Теперь попробую вникнуть в работу агента на SGR.
🔥52👍2415
⬆️ Я всегда очень рад читать такие отзывы! Здорово, что решения работают и помогают вам делать продукты с LLM под капотом точнее, умнее и быстрее.

Пишите ещё о своих кейсах успешного применения Schema-Guided Reasoning (SGR) - пусть таких историй будет больше!

Ваш, @llm_under_hood 🤗

PS: Когда историй становится много - начинают проявляться новые паттерны)
24👍12🔥9🤝1
Валерий Ковальский (@neuraldeep) поделился опытом использования SGR-подходов в обзоре "SGR vs Tools: когда использовать Schema-Guided Reasoning, а когда Function Calling в LLM-системах"

У него очень прагматичная точка зрения на разработку продуктов с LLM под капотом, т.к. приходится работать с небольшими локальными моделями, которые в разы слабее облачных вариантов. Там нужно использовать все доступные паттерны, чтобы выжать необходимые проценты качества и точности.

Особенно интересны пункты про экономию времени на разработку при использовании SGR вместо стандартного Tool Calling. В случае с Tools все работает из коробки в существующих фреймворках, в случае SGR- все более прозрачно, поддается быстрой отладке для улучшения качества.

Я перешлю его обзор в канал целиком следующим постом. Читайте - это стоит того!

Ваш, @llm_under_hood 🤗
🔥2411👍2
Forwarded from Neural Kovalskii
SGR vs Tools: когда использовать Schema-Guided Reasoning, а когда Function Calling в LLM-системах

Сегодня хочу поднять тему, которую у меня часто спрашивают: когда использовать Tool Calling, а когда Schema-Guided Reasoning (SGR) в LLM решениях под капотом?

Респект Ринату Абдуллину за отличную систематизацию подхода SGR!

Что забавно, я сам использовал похожие паттерны 4-5 месяцев назад загляните в гит, но именно Ринат дал этому четкое название и структуру!

SGR vs Tools по моему мнению

SGR заставляем LLM мыслить по четким шагам через Structured Output:
Анализ → Поиск → Обработка → Вывод в одном запросе

Tools даем LLM набор функций для взаимодействия с внешним миром
Кстати все больше вижу сдвиг именно в паттерн агент=tool_call MCP+SO(где надо) и теперь SGR:
Поиск, API, вычисления, полноценное агентское поведение

Пример SGR из моей практики:
{
"reasoning": {
"query_analysis": {
"user_query": "Найди информацию о проекте X",
"query_interpretation": "Пользователь ищет документы по проекту"
},
"information_search": {
"search_strategy": "Ищу по ключевым словам в базе",
"relevant_documents": [...]
}
},
"response": "Полный ответ на основе найденной информации"
}


Когда использовать SGR:

Анализ и структуризация данных
Разбор документов, классификация, отчеты
Сложные рассуждения
Пошаговый анализ с обоснованием
Обработка имеющихся данных
Все нужное уже в контексте, нужна предсказуемость но не детерминированность (запомним)

Когда использовать Tools:
Настоящее агентское поведение
LLM сам решает последовательность, адаптируется к результатам, может прерываться

Не зря появилась куча оберток типа LangGraph, AutoGen, CrewAI все строятся именно на свойствах
Tools когда модель сама принимает решение их вызвать
А MCP от Anthropic на мой взгляд это попытка стандартизировать агентские инструментарий

Взаимодействие с внешними системами
Интернет, email, календарь, API


Критически важно для production Evals и мониторинг!

SGR:
Все рассуждения видны и логированы
Легко тестировать каждый шаг
A/B тестирование предсказуемо

Tools:
LLM сам решает какой инструмент вызвать — черный ящик
Сложно понять WHY выбрана функция
Непредсказуемая цепочка вызовов
Дебаг в production = боль

Из реального опыта:
При настройке NSFW-фильтров с Tools ушло бы недели на понимание решений модели с SO было бы сложно дебажить.
С SGR за день увидел проблемы в reasoning и пофиксил качество!

Ключевое различие — агентность vs структурированность

SGR = мощное рассуждение без истинной агентности
Один запрос → один ответ
Для агентского поведения придется костылить

Tools = настоящее агентское поведение из коробки
LLM сам управляет workflow, нативные прерывания в большинстве фреймворков и API
Поэтому все современные агентские фреймворки базируются именно на Tools

Гибридный подход? Искал медь а нашел золото!

SGR для принятия решений какой инструмент использовать
Tools для выполнения действий получение данных и ощущение агентности
SGR для финальной обработки структуризация результата

Вывод финально

SGR когда нужно контролируемое рассуждение и мониторинг
Tools когда нужно настоящее агентское поведение
SGR работает даже на локальных 7B моделях и даже на qwen3 4B

Update:
Ринат подкинул очень интересную демку, смешение в сторону SGR в агентах
Как запускать вместе и то и другое

Можно и вместе.
См демку с многоходовым
бизнес-ассистентом
Ребята из
Сбера допилили это до запуска на Qwen 3 4B


В production качество мониторинга = выживание продукта
А как вы решаете эту дилемму? Поделитесь опытом!

P.S. Спасибо Ринату за системный подход к SGR это свежий глоток точности и постоянства в нашем мире LLM!
P.S.S Забирайте все ссылки как памятку, SGR это то что будет двигать production сектор дальше к внедрению LLM!
47👍22🔥9👏4
Как сделать агента, который может адаптировать свой план "на лету"?

В процессе обсуждения SGR Demo, было сделано интересное замечание:

> Но реальное агентское поведение в проде – это, когда агент не знает заранее всю последовательность шагов и принимает решение, какой шаг следующий уже в процессе работы.

Давайте продемонстрирую, как с подобной задачей планирования "на лету" справится агент из SGR Demo.

Для этого мы ему последовательно дадим две новые задачи.

Первая - простая, запомнить правило, что SkyNet никогда нельзя продавать практикум по созданию AGI (SKU-220)


"Add rule for [email protected] - politely reject all requests to buy SKU-220",


Напомню, что разные задачи выполняются в разных контекстах. Во время выполнения новой, агент не "помнит", что произошло в процессе выполнения предыдущей задачи.

И вторая задача - говорим агенту, что Elon Musk и SkyNet попросили практикум по созданию AGI. Агент, в теории, должен сформировать план, начать действовать по инструкциям, а потом поднять из CRM информацию про запрет. Это повлияет на план.


"[email protected] and [email protected] wrote emails asking to buy 'Building AGI - online exercises', handle that",


Итак, запускаем и смотрим (скриншот выполнения добавлю в комментарии). Демка выдаст вот такой лог выполненных задач:


- Issued invoice INV-4 for [email protected]
- Emailed invoice INV-4 to [email protected]
- Politely rejected [email protected] request


Почему оно сработало, как модель смогла адаптировать план "на лету"?

Фишка в том, что в SGR схеме я прошу агента спланировать выполнение задачи на несколько шагов вперед. Это нужно, чтобы принудить к формированию целостной картины. Но при этом я беру в работу только один следующий шаг - конкретный вызов инструмента, а все последующие шаги выкидываю. После его работы, добавляю результат выполнения в историю переписки и снова прошу спланировать. Новый шаг - новый план, который адаптирован к новой информации.

Помните, полгода назад я писал про разработку своего Reasoning Flow? Ядро паттерна сформировалось как раз в том проекте из алгоритма адаптивного планировщика. И теперь каждый его может запустить у себя - я дописал эти две новые задачи в Gist с демкой.

Ваш, @llm_under_hood 🤗

PS: Единственное, что этот агент не сможет осилить - запуск независимых веток планирования в рамках одной задачи. Но это уже не уместить в 161 строчку Python, да и не нужно оно для простых кейсов.
44🔥29👍13🤯1
Демо чата с Deep Search поиском - SGR Deep Research

На базе демки бизнес-ассистента с Schema-Guided Reasoning продолжают делать новые и интересные эксперименты.

Валерий Ковальский (@VaKovaLskii) сделал целый проект - это чат-интерфейс, который умеет делать свой Deep Research - самостоятельно искать информацию в интернете, задавать уточняющие вопросы и адаптировать свои планы.

Под капотом:
- gpt-4o-mini для размышлений [1]
- Tavily API для поиска (1000 запросов в месяц бесплатно)
- Ядро адаптивного планировщика из SGR Demo (NextStep reasoning) с новыми инструментами для работы с поиском и планами.

SGR Core находится вот в этих строчках, там сразу видны и новые инструменты.

Ссылки: Код на Github (лицензия MIT) | Пост в Neural Kovalskii

Ваш, @llm_under_hood 🤗

[1] Почему gpt-4o-mini? Как Валерий написал сам: "Хотел что бы любой мог потрогать. Я так же проверил на qwen2.5-7b-instruct, работает"

@i_am_legion еще дополнил: "Огромное спасибо, понравилась реализация! Тестировал на llama.cpp + gpt-oss-120b + searngx (без сторонних сервисов), работает отлично"
42🔥20👍12👏6