Технозаметки Малышева

DeepL запускает автономного AI агента

DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.

Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.

Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.

Есть функции "остановись и проверь" с помощью человека.

Есть признаки оператора.

Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.

Поддерживает совместную работу нескольких агентов.

Все переизобретают Manus.
Новый стандарт.

#DeepL #AgenticAI #DeepResearcher
———
@tsingular

✍4🔥2⚡1

1.59K viewsedited 09:12

Технозаметки Малышева

А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)

#lifehack #deepresearch
———
@tsingular

😁7🔥3✍1👏11

1.34K views09:17

Технозаметки Малышева

Forwarded from Machinelearning

🌟

InfoSeek: синтез данных для deep‑research с формализацией HCSP.

BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.

Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.

Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".

В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.

🟡

Синтез выполняет связка из 2 агентов.

Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:

🟢Инициализация из "якоря";

🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;

🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;

🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.

Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.

Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.

🟡

Эксперименты.

Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.

На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.

Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.

▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.

📌Лицензирование: Apache 2.0 License.

🟡

Датасет

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DeepResearch #Dataset #InfoSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1

2.02K views13:05

Технозаметки Малышева

А есть ИБшники в чате?

Покритикуйте в комментах, чего не хватает?

#cybersecurity #агенты
———
@tsingular

👍7✍2⚡1🍓1

1.82K views18:21

Технозаметки Малышева

Forwarded from Data Secrets

Почему LLM галлюцинируют: новая статья от OpenAI

Да-да, вы не ослышались. Раз в год ~~и палка стреляет~~ и OpenAI выпускают интересные рисерчи.

Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:

– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.

– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.

– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.

Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.

Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.

OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.

Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.

Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.

В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.

В общем, интересно, продвинется ли идея дальше статьи.

cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

❤10✍2👏2

1.63K views13:34

Технозаметки Малышева

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

Доброе утро.

Немного прогресса по роботам.

Начнём с двухколесных товарищей.

Тут во-первых обновили прошивку акробата, - он теперь трюки такие вытворяет, что хоть в цирке показывай.

Ну и DIY наборы интересные.
Можно самим собирать помощников для дома.
Или мелкие грузы доставлять.

#велодроны #Китай
------
@tsingular

👍5✍22❤1👻1👾1

1.72K views03:56

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Вторая часть, конечно,- всеми любимые собачки.

Очевидно очень подходят быть курьерами.
Доставят пиццу даже по пересеченной местности.

#дронособаки #Китай #робота
------
@tsingular

🔥3🆒3👾1

3.1K views03:58

Технозаметки Малышева

0:59

Media is too big

VIEW IN TELEGRAM

Ну и, наконец, гуманоиды.

Ещё один очень перспективный вариант нарисовался.

Работает в режиме дистанционного управления. По сути,- шагающий дрон.

#роботы #Китай
------
@tsingular

🔥17👍5👀4❤1🐳1👾1

2.99K views04:00

Технозаметки Малышева

Forwarded from Data Secrets

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

SGR Deep Research: как из чёрного ящика агентов сделать прозрачную и надёжную систему

Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца.

Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия.

Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона:
– мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик,
– сложно отлаживать и объяснять решения модели,
– A/B-тестирование и контроль качества превращаются в боль.

Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока.

Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода.
Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод.

От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места.

Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта.

А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие.

Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте.

Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано:

➖ Вызов инструментов по схеме Schema-Guided Reasoning. Причем подход гибридный, с двухфазной архитектурой: принудительное структурированное рассуждение (JSON Schema) + детерминированное выполнение. Это позволяет даже 4B моделям проявлять агентные свойства, недоступные через классический Function Calling.
➖ Прозрачное логирование на каждом шаге: от уточнения запроса и генерации плана до веб-поиска, анализа и финального отчёта, все трекается.
➖ Работа на легких моделях вроде gpt-4o-mini и qwen instruct от 4b до 32b (+можно подключать свои).
➖ OpenAI-совместимый API с персистентными агентами: каждый агент получает уникальный ID для продолжения исследования.

Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API.

Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться.
– Если есть идеи – обязательно идите с ними к Валере.
– Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию.
– И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити.

Еще раз:
Ссылка на проект
Ссылка на канал Рината – автора идеи
Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)

Please open Telegram to view this post

VIEW IN TELEGRAM

✍8🆒4❤1❤‍🔥1👨‍💻1

2.25K views09:46

Технозаметки Малышева

Forwarded from Machine head - Александр О.

🔥 THIS IS HUGE!!!

Agentic Design Patterns: Практическое руководство по созданию интеллектуальных систем

Только что закончил и опубликовал русский перевод книги Антонио Гулли, которую автор заботливо выложил в открытый доступ на английском языке.

Это первая в мире книга, которая систематизирует паттерны проектирования для AI-агентов. Автор собрал и структурировал лучшие практики создания интеллектуальных систем, которые могут планировать, использовать инструменты, взаимодействовать с пользователями и адаптироваться к новым задачам.

В книге 21 глава с практическими примерами, кодом и реальными кейсами. От простых цепочек промптов до сложных многоагентных систем - все паттерны протестированы в реальных проектах.

Особенно полезно будет тем, кто:
⭐️ Разрабатывает AI-приложения
⭐️ Интегрирует LLM в свои продукты
⭐️ Хочет понять, как создавать по-настоящему умные системы

Репозиторий открытый, можно читать прямо на GitHub, листинги кода тщательно отформатированы, проработана навигация для удобства чтения.

Делитесь с коллегами и подписывайтесь на @machine_head_ru!

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - pridees/agentic-design-patterns-book-rus: 🇷🇺 Русский перевод книги Антонио Гулли - Agentic Design Patterns: Практическое…

🇷🇺 Русский перевод книги Антонио Гулли - Agentic Design Patterns: Практическое руководство по созданию интеллектуальных систем - pridees/agentic-design-patterns-book-rus

3🔥29🆒4❤1

3.79K views19:30

Технозаметки Малышева

Forwarded from Чуковский

Schema-Guided Reasoning

В профильных LLM-каналах начал набирать популярность термин SGR (Schema-Guided Reasoning), но по какой-то причине народ не всегда понимает, что он обозначает, и зачем нужен. Никакого секрета нет, главное запомнить одно уравнение:

SGR = SO + COT

Из чего складывается Schema-Guided Reasoning:

1️⃣Во-первых, нам нужна модель, которая поддерживает Stuctured Output (SO) - возможность управлять результатом работы LLM, "зануляя" вероятности токенов, не подходящих под описанную нами грамматику, прямо во время выполнения.

2️⃣Во-вторых, нам нужно определить структуру желаемого ответа так, чтобы она "помогала" модели мыслить (тот самый Chain-Of-Thought).
Мы как бы «заставляем» модель пройти определенные этапы размышления перед тем как дать ответ, чтобы в результате вероятность корректных токенов ответа была выше.

Отличным примером использования такой техники является бот для дип-ресерча на открытых модельках sgr-deep-research, разработанный автором канала @neuraldeep:

🟢Сначала (скриншот 1 в комментах) мы определяем несколько классов, которые описывают шаги размышления модели. Например, когда модель хочет сгенерировать список уточняющих вопросов - она должна сначала описать себе причину, зачем ей это уточнение потребовалось, далее перечислить список терминов, которые она не поняла, предположить что они обозначают, и только после этого сгенерировать вопросы пользователя

🟢Одновременно с этим, для описания шагов размышления мы используем Pydantic-классы. Зачем? Чтобы можно было их отправить в LLM в качестве грамматики, ограничивающей результат. Теперь, если LLM решит выполнить шаг «Уточнение вопроса», она обязательно должна будет пройти указанные выше шаги, и это ограничение будет завернуто прямо в движок ее инференса. Модель просто физически не сможет отойти от схемы и начать генерировать что-то нерелевантное (почти всегда, но об этом позже)

Далее, эти шаги объединяются в цепочку (скриншот 2), которая представляет собой финальный ответ, и структура которой будет отправлена в LLM в качестве промпта.

И вот на этом этапе, становится понятно, зачем понадобился вообще SGR, и в чем его преимущество относительно других методов. Для того, чтобы сгенерировать следующий шаг в размышлениях, LLM обязательно сгенерирует:
🟢1-4 предложения, как она видит текущую ситуацию;
🟢статус выполнения плана исследования, закончен ли он, сколько еще шагов нужно пройти
🟢сколько еще шагов поиска она может сделать
🟢достаточно ли ей данных для отчета
🟢и только после этого, она сможет выбрать инструмент, который будет запускать (или доуточнение, или веб-поиск, или генерация ответа).

Для больших моделей, такой подход часто избыточен - они и так достаточно умные, чтобы рассуждать прямо "из коробки", и всегда следовать нужной инструкции.
Но если ваша модель относительно небольшая, и может легко отклоняться от инструкций, или она недостаточно хорошо их выполняет, то такие вот "рельсы" в виде Structured Output + зашитый в ответ процесс размышлений в стиле Chain-Of-Thought могут дать значительный прирост качества на ряде задач.

Конечно, у такого подхода есть и минусы, и его тоже нужно правильно готовить, но об этом как-нибудь в другой раз

@korneychukov

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11✍5❤2

1.53K views07:15

Технозаметки Малышева

Интересный кейс из Кении, показывающий высокий спрос на инструмент, облегчающий понимание действующего и будущего законодательства и выступающий посредником между юридически неподготовленным пользователем и законодателем.

13 июня 2024-го программист Келвин Онкунди Ндемо загрузил в сеть ИИ-помощника на основе ChatGPT, который отвечал пользователям на вопросы о законопроекте о бюджете и переводил его статьи с юридического жаргона на человеческий язык. Ндемо обучил своего чат-бота на тексте законопроекта и «нескольких журналистских материалах», а позднее – на докладе комитета по финансам и планированию.

В течение уже первой недели бот обработал 50 тыс. запросов: например, подсчитывал пользователям, сколько шиллингов им придется переплатить за буханку хлеба с повышением НДС или как новый экосбор скажется на стоимости масла и других продуктов.

Чем закончилось, читаем тут

#Кения #законы #боты
———-
@tsingular

✍5🔥4⚡2❤1

1.98K views16:01

Технозаметки Малышева

0:42

Media is too big

VIEW IN TELEGRAM

FieldPrint: робот принтер

Ну, вот, а вы говорите, - игрушки.

Наконец-то по-настоящему полезный робот.
Точность 1,6мм. Есть защита от накопления ошибок.
Совместим с Автокадом, управляется с айпада.

#DustyRobotics #FieldPrinter
———
@tsingular

🔥40⚡4❤1👾1

2.88K views19:25

Технозаметки Малышева

🧲 Физики раскрыли причину галлюцинаций ChatGPT — AI оказался похож на систему спинов с предсказуемыми точками перехода

Исследователи из George Washington University математически доказали: галлюцинации AI — не баг, а физическое свойство архитектуры. И вывели формулу, позволяющую предсказать момент срыва.

Суть открытия простыми словами:
Представьте каждое слово в ChatGPT,- как магнит в многомерном пространстве.

Когда вы пишете промпт — вы ставите первые магниты на доску.
AI смотрит на их общее «магнитное поле» и выбирает следующее слово-магнит, которое лучше всего к нему притягивается.

Проблема: после определенного количества «правильных» слов система внезапно переключается на «неправильные» — даже если промпт был корректным.

Техническая механика срыва:
• Attention head (базовый блок любой LLM) работает как система взаимодействующих спинов
• Каждое взаимодействие = физический гамильтониан: H = −S₁·S₂
• Система всегда выбирает состояние с минимальной энергией
• Критический момент: когда «плохой» контент становится энергетически выгоднее «хорошего»

Формула срыва — когда AI начнёт галлюцинировать:

n* = [сумма взаимодействий промпта с хорошим/плохим контентом] / 
     [разница энергий между хорошим и плохим контентом]

Число n* показывает, сколько правильных токенов выдаст модель до срыва.
И это «зашито» с момента старта ответа — все векторы уже определены обучением и вашим промптом.
Судьба предопределена. :)

Почему в больших моделях проявляется хуже:
В многослойных LLM (типа GPT-4) происходит эффект усиления:
• Токены проходят десятки слоёв, испытывая «слияние и расщепление»
• Формируются гигантские кластеры, объединяющие правильный и неправильный контент
• К финальному слою они оказываются в одном подпространстве → срыв неизбежен

«Чем больше слоёв в модели (L_LLM), тем выше вероятность формирования супер-токенов, смешивающих хороший и плохой контент»

Предложенные решения:

1. Gap cooling — увеличение «расстояния» между правильными и неправильными ответами в пространстве смыслов перед критической точкой

2. Temperature annealing — динамическая регулировка «температуры» генерации для баланса между креативностью и стабильностью

Практическая ценность:
• Формула универсальна — работает для любого размера словаря и будущих версий ChatGPT
• Можно заранее оценить риск галлюцинаций для конкретного промпта
• Модели смогут предупреждать о приближении к точке срыва

Вывод: галлюцинации очень похожи по сути на физические процессы, а значит физика же и может помочь их снизить или даже убрать.

#Physics #галлюцинации
———
@tsingular

⚡11✍6❤3👍3🆒1

2.34K views04:31

Технозаметки Малышева

Нашел отличную подборку фоновой музыки для работы :)

https://sber.pro/events/forum-iskusstvo-transformatsii-put-k-operatsionnoi-effektivnosti/

Включаем, фоном смотрим/слушаем.
Очень интересно.
Видео внизу экрана

#конференции #агенты #кейсы
———
@tsingular

👍4🔥3⚡2

1.7K viewsedited 07:54

About

Blog

Apps

Platform