Forwarded from GigaDev — разработка GigaChat
AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas
Команда GigaChain продолжает делиться гайдами о построении агентов.
В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.
В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки
➡️ Читайте статью на Хабре
📁 Код, разбираемый в статье, доступен на GitHub и GitVerse
📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
Команда GigaChain продолжает делиться гайдами о построении агентов.
В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.
Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.
В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки
➡️ Читайте статью на Хабре
📁 Код, разбираемый в статье, доступен на GitHub и GitVerse
📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
Хабр
Гайд: AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas
Запуск стартапа — это не только идея, но и понимание, как она станет бизнесом. Lean Canvas, предложенный Эшем Маурья, помогает на одной странице структурировать ключевые аспекты: проблемы клиентов,...
🔥6✍4❤2👍1
Forwarded from Machinelearning
UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.
Почему это важно:
По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.
@ai_machinelearning_big_data
#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6✍2❤1⚡1
Forwarded from Forbes Russia
Как юристу за пару минут разобраться в 50-страничном договоре? Что делать инженеру, когда «горит лампочка» на производстве? И как ритейлеру сократить запуск маркетинговой кампании с нескольких месяцев до нескольких дней?
Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.
— В банке нейросети анализируют документы и находят риски;
— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;
— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.
Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?
Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»
Слушайте на сайте Forbes
В плеере Telegram
Apple Podcasts
На «Яндекс.Музыке»
И других стримингах
Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.
— В банке нейросети анализируют документы и находят риски;
— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;
— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.
Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?
Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»
Слушайте на сайте Forbes
В плеере Telegram
Apple Podcasts
На «Яндекс.Музыке»
И других стримингах
✍3⚡1👏1
MoonshotAI выпустила Kimi-K2-Instruct-0905
Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)
Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны
По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.
Попробовать можно тут:
https://www.kimi.com/
GitHub
Hugging Face.
Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)
#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)
Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны
По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.
Попробовать можно тут:
https://www.kimi.com/
GitHub
Hugging Face.
Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)
#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
⚡5👍4❤2✍1
Anthropic блокирует доступ к ИИ для китайских компаний
Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.
Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.
Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.
Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.
Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.
#Anthropic #Китай
———
@tsingular
Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.
Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.
Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.
Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.
Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.
#Anthropic #Китай
———
@tsingular
🤣8⚡2👍1
Media is too big
VIEW IN TELEGRAM
DeepL запускает автономного AI агента
DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.
Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.
Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.
Есть функции "остановись и проверь" с помощью человека.
Есть признаки оператора.
Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.
Поддерживает совместную работу нескольких агентов.
Все переизобретают Manus.
Новый стандарт.
#DeepL #AgenticAI #DeepResearcher
———
@tsingular
DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.
Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.
Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.
Есть функции "остановись и проверь" с помощью человека.
Есть признаки оператора.
Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.
Поддерживает совместную работу нескольких агентов.
Все переизобретают Manus.
Новый стандарт.
#DeepL #AgenticAI #DeepResearcher
———
@tsingular
✍4🔥2⚡1
А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)
#lifehack #deepresearch
———
@tsingular
#lifehack #deepresearch
———
@tsingular
😁7🔥3✍1👏1 1
Forwarded from Machinelearning
BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.
Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.
Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".
В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.
Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:
Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.
Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.
Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.
На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.
Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.
@ai_machinelearning_big_data
#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1
А есть ИБшники в чате?
Покритикуйте в комментах, чего не хватает?
#cybersecurity #агенты
———
@tsingular
Покритикуйте в комментах, чего не хватает?
#cybersecurity #агенты
———
@tsingular
👍7✍2⚡1🍓1
Forwarded from Data Secrets
Почему LLM галлюцинируют: новая статья от OpenAI
Да-да, вы не ослышались. Раз в годи палка стреляет и OpenAI выпускают интересные рисерчи.
Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:
– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.
– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.
– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.
Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.
Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.
OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.
Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.
Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.
В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.
В общем, интересно, продвинется ли идея дальше статьи.
cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
Да-да, вы не ослышались. Раз в год
Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:
– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.
– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.
– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.
Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.
Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.
OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.
Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.
Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.
В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.
В общем, интересно, продвинется ли идея дальше статьи.
cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
❤10✍2👏2
Доброе утро.
Немного прогресса по роботам.
Начнём с двухколесных товарищей.
Тут во-первых обновили прошивку акробата, - он теперь трюки такие вытворяет, что хоть в цирке показывай.
Ну и DIY наборы интересные.
Можно самим собирать помощников для дома.
Или мелкие грузы доставлять.
#велодроны #Китай
------
@tsingular
Немного прогресса по роботам.
Начнём с двухколесных товарищей.
Тут во-первых обновили прошивку акробата, - он теперь трюки такие вытворяет, что хоть в цирке показывай.
Ну и DIY наборы интересные.
Можно самим собирать помощников для дома.
Или мелкие грузы доставлять.
#велодроны #Китай
------
@tsingular
👍5✍2 2❤1👻1👾1
Вторая часть, конечно,- всеми любимые собачки.
Очевидно очень подходят быть курьерами.
Доставят пиццу даже по пересеченной местности.
#дронособаки #Китай #робота
------
@tsingular
Очевидно очень подходят быть курьерами.
Доставят пиццу даже по пересеченной местности.
#дронособаки #Китай #робота
------
@tsingular
🔥3🆒3👾1
Media is too big
VIEW IN TELEGRAM
Ну и, наконец, гуманоиды.
Ещё один очень перспективный вариант нарисовался.
Работает в режиме дистанционного управления. По сути,- шагающий дрон.
#роботы #Китай
------
@tsingular
Ещё один очень перспективный вариант нарисовался.
Работает в режиме дистанционного управления. По сути,- шагающий дрон.
#роботы #Китай
------
@tsingular
🔥17👍5👀4❤1🐳1👾1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
SGR Deep Research: как из чёрного ящика агентов сделать прозрачную и надёжную систему
Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца.
Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия.
Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона:
– мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик,
– сложно отлаживать и объяснять решения модели,
– A/B-тестирование и контроль качества превращаются в боль.
Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока.
Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода.
Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод.
От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места.
Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта.
А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие.
Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте.
Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано:
➖ Вызов инструментов по схеме Schema-Guided Reasoning. Причем подход гибридный, с двухфазной архитектурой: принудительное структурированное рассуждение (JSON Schema) + детерминированное выполнение. Это позволяет даже 4B моделям проявлять агентные свойства, недоступные через классический Function Calling.
➖ Прозрачное логирование на каждом шаге: от уточнения запроса и генерации плана до веб-поиска, анализа и финального отчёта, все трекается.
➖ Работа на легких моделях вроде gpt-4o-mini и qwen instruct от 4b до 32b (+можно подключать свои).
➖ OpenAI-совместимый API с персистентными агентами: каждый агент получает уникальный ID для продолжения исследования.
Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API.
Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться.
– Если есть идеи – обязательно идите с ними к Валере.
– Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию.
– И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити.
Еще раз:
Ссылка на проект
Ссылка на канал Рината – автора идеи
Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)
Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца.
Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия.
Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона:
– мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик,
– сложно отлаживать и объяснять решения модели,
– A/B-тестирование и контроль качества превращаются в боль.
Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока.
Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода.
Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод.
От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места.
Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта.
А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие.
Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте.
Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано:
Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API.
Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться.
– Если есть идеи – обязательно идите с ними к Валере.
– Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию.
– И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити.
Еще раз:
Ссылка на проект
Ссылка на канал Рината – автора идеи
Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)
Please open Telegram to view this post
VIEW IN TELEGRAM
✍8🆒4❤1❤🔥1👨💻1
Forwarded from Machine head - Александр О.
Agentic Design Patterns: Практическое руководство по созданию интеллектуальных систем
Только что закончил и опубликовал русский перевод книги Антонио Гулли, которую автор заботливо выложил в открытый доступ на английском языке.
Это первая в мире книга, которая систематизирует паттерны проектирования для AI-агентов. Автор собрал и структурировал лучшие практики создания интеллектуальных систем, которые могут планировать, использовать инструменты, взаимодействовать с пользователями и адаптироваться к новым задачам.
В книге 21 глава с практическими примерами, кодом и реальными кейсами. От простых цепочек промптов до сложных многоагентных систем - все паттерны протестированы в реальных проектах.
Особенно полезно будет тем, кто:
Репозиторий открытый, можно читать прямо на GitHub, листинги кода тщательно отформатированы, проработана навигация для удобства чтения.
Делитесь с коллегами и подписывайтесь на @machine_head_ru!
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - pridees/agentic-design-patterns-book-rus: 🇷🇺 Русский перевод книги Антонио Гулли - Agentic Design Patterns: Практическое…
🇷🇺 Русский перевод книги Антонио Гулли - Agentic Design Patterns: Практическое руководство по созданию интеллектуальных систем - pridees/agentic-design-patterns-book-rus
3🔥29🆒4❤1