Технозаметки Малышева

Forwarded from GigaDev — разработка GigaChat

AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Команда GigaChain продолжает делиться гайдами о построении агентов.

В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.

Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.

В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки

➡️ Читайте статью на Хабре

📁 Код, разбираемый в статье, доступен на GitHub и GitVerse

📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"

Хабр

Гайд: AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Запуск стартапа — это не только идея, но и понимание, как она станет бизнесом. Lean Canvas, предложенный Эшем Маурья, помогает на одной странице структурировать ключевые аспекты: проблемы клиентов,...

🔥6✍4❤2👍1

1.42K views10:18

Технозаметки Малышева

Forwarded from Machinelearning

🔥 NVIDIA представила Universal Deep Research (UDR)

UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.

Почему это важно:
🟠**Гибкая настройка агента без кода** — UDR не ограничивает жёсткими сценариями, как большинство тулзов.
🟠Можно создавать, редактировать и комбинировать стратегии поиска и анализа.
🟠В репо есть примеры стратегий (minimal, expansive, intensive), но главная сила — в кастомизации под свои задачи.

По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.

🟢

Project: https://research.nvidia.com/labs/lpr/udr

🟢

Code: https://github.com/NVlabs/UniversalDeepResearch

🟢

Lab: https://nv-dler.github.io

@ai_machinelearning_big_data

#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6✍2❤1⚡1

1.32K views13:52

Технозаметки Малышева

Forwarded from Forbes Russia

Как юристу за пару минут разобраться в 50-страничном договоре? Что делать инженеру, когда «горит лампочка» на производстве? И как ритейлеру сократить запуск маркетинговой кампании с нескольких месяцев до нескольких дней?

Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.

— В банке нейросети анализируют документы и находят риски;

— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;

— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.

Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?

Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»

Слушайте на сайте Forbes

В плеере Telegram

Apple Podcasts

На «Яндекс.Музыке»

И других стримингах

✍3⚡1👏1

1.35K views15:00

Технозаметки Малышева

MoonshotAI выпустила Kimi-K2-Instruct-0905

Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)

Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны

По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.

Попробовать можно тут:
https://www.kimi.com/

GitHub
Hugging Face.

Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)

#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular

⚡5👍4❤2✍1

1.42K views08:13

Технозаметки Малышева

Anthropic блокирует доступ к ИИ для китайских компаний

Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.

Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.

Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.

Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.

Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.

#Anthropic #Китай
———
@tsingular

🤣8⚡2👍1

1.24K views08:31

Технозаметки Малышева

0:22

Media is too big

VIEW IN TELEGRAM

DeepL запускает автономного AI агента

DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.

Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.

Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.

Есть функции "остановись и проверь" с помощью человека.

Есть признаки оператора.

Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.

Поддерживает совместную работу нескольких агентов.

Все переизобретают Manus.
Новый стандарт.

#DeepL #AgenticAI #DeepResearcher
———
@tsingular

✍4🔥2⚡1

1.59K viewsedited 09:12

Технозаметки Малышева

А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)

#lifehack #deepresearch
———
@tsingular

😁7🔥3✍1👏11

1.34K views09:17

Технозаметки Малышева

Forwarded from Machinelearning

🌟

InfoSeek: синтез данных для deep‑research с формализацией HCSP.

BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.

Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.

Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".

В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.

🟡

Синтез выполняет связка из 2 агентов.

Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:

🟢Инициализация из "якоря";

🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;

🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;

🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.

Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.

Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.

🟡

Эксперименты.

Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.

На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.

Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.

▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.

📌Лицензирование: Apache 2.0 License.

🟡

Датасет

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DeepResearch #Dataset #InfoSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1

2.02K views13:05

Технозаметки Малышева

А есть ИБшники в чате?

Покритикуйте в комментах, чего не хватает?

#cybersecurity #агенты
———
@tsingular

👍7✍2⚡1🍓1

1.82K views18:21

Технозаметки Малышева

Forwarded from Data Secrets

Почему LLM галлюцинируют: новая статья от OpenAI

Да-да, вы не ослышались. Раз в год ~~и палка стреляет~~ и OpenAI выпускают интересные рисерчи.

Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:

– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.

– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.

– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.

Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.

Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.

OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.

Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.

Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.

В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.

В общем, интересно, продвинется ли идея дальше статьи.

cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

❤10✍2👏2

1.63K views13:34

Технозаметки Малышева

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

Доброе утро.

Немного прогресса по роботам.

Начнём с двухколесных товарищей.

Тут во-первых обновили прошивку акробата, - он теперь трюки такие вытворяет, что хоть в цирке показывай.

Ну и DIY наборы интересные.
Можно самим собирать помощников для дома.
Или мелкие грузы доставлять.

#велодроны #Китай
------
@tsingular

👍5✍22❤1👻1👾1

1.72K views03:56

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Вторая часть, конечно,- всеми любимые собачки.

Очевидно очень подходят быть курьерами.
Доставят пиццу даже по пересеченной местности.

#дронособаки #Китай #робота
------
@tsingular

🔥3🆒3👾1

3.1K views03:58

Технозаметки Малышева

0:59

Media is too big

VIEW IN TELEGRAM

Ну и, наконец, гуманоиды.

Ещё один очень перспективный вариант нарисовался.

Работает в режиме дистанционного управления. По сути,- шагающий дрон.

#роботы #Китай
------
@tsingular

🔥17👍5👀4❤1🐳1👾1

2.99K views04:00

Технозаметки Малышева

Forwarded from Data Secrets

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

SGR Deep Research: как из чёрного ящика агентов сделать прозрачную и надёжную систему

Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца.

Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия.

Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона:
– мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик,
– сложно отлаживать и объяснять решения модели,
– A/B-тестирование и контроль качества превращаются в боль.

Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока.

Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода.
Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод.

От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места.

Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта.

А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие.

Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте.

Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано:

➖ Вызов инструментов по схеме Schema-Guided Reasoning. Причем подход гибридный, с двухфазной архитектурой: принудительное структурированное рассуждение (JSON Schema) + детерминированное выполнение. Это позволяет даже 4B моделям проявлять агентные свойства, недоступные через классический Function Calling.
➖ Прозрачное логирование на каждом шаге: от уточнения запроса и генерации плана до веб-поиска, анализа и финального отчёта, все трекается.
➖ Работа на легких моделях вроде gpt-4o-mini и qwen instruct от 4b до 32b (+можно подключать свои).
➖ OpenAI-совместимый API с персистентными агентами: каждый агент получает уникальный ID для продолжения исследования.

Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API.

Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться.
– Если есть идеи – обязательно идите с ними к Валере.
– Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию.
– И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити.

Еще раз:
Ссылка на проект
Ссылка на канал Рината – автора идеи
Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)

Please open Telegram to view this post

VIEW IN TELEGRAM

✍8🆒4❤1❤‍🔥1👨‍💻1

2.25K views09:46

Технозаметки Малышева

Forwarded from Machine head - Александр О.

🔥 THIS IS HUGE!!!

Agentic Design Patterns: Практическое руководство по созданию интеллектуальных систем

Только что закончил и опубликовал русский перевод книги Антонио Гулли, которую автор заботливо выложил в открытый доступ на английском языке.

Это первая в мире книга, которая систематизирует паттерны проектирования для AI-агентов. Автор собрал и структурировал лучшие практики создания интеллектуальных систем, которые могут планировать, использовать инструменты, взаимодействовать с пользователями и адаптироваться к новым задачам.

В книге 21 глава с практическими примерами, кодом и реальными кейсами. От простых цепочек промптов до сложных многоагентных систем - все паттерны протестированы в реальных проектах.

Особенно полезно будет тем, кто:
⭐️ Разрабатывает AI-приложения
⭐️ Интегрирует LLM в свои продукты
⭐️ Хочет понять, как создавать по-настоящему умные системы

Репозиторий открытый, можно читать прямо на GitHub, листинги кода тщательно отформатированы, проработана навигация для удобства чтения.

Делитесь с коллегами и подписывайтесь на @machine_head_ru!

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - pridees/agentic-design-patterns-book-rus: 🇷🇺 Русский перевод книги Антонио Гулли - Agentic Design Patterns: Практическое…

🇷🇺 Русский перевод книги Антонио Гулли - Agentic Design Patterns: Практическое руководство по созданию интеллектуальных систем - pridees/agentic-design-patterns-book-rus

3🔥29🆒4❤1

3.79K views19:30

About

Blog

Apps

Platform