RoboFuture

👍2🔥2

1.39K views14:32

Запись этого выступления появилась.

Посмотреть можно на youtube или в телеге выше☝️

Вот о чем говорил:
- Как мы решили пойти в Open-source
- Как решили делать форк крупного фреймворка LangChain и потом передумали
- Как некоторые крупные репозитарии принимают наши PR, а потом иногда удаляют за то что мы из Сбера
- Как CEO LlamaIndex добавил поддержку GigaChat
- Как в итоге получили инструмент, который входит в top-2% по скачиваниям с pypi
- Рассказываю про наши последние разработки в области AI агентов

YouTube

Как мы пошли по пути OpenSource при создании SDK для GigaChat

В этом видео Константин Крестников, управляющий директор управления базовых моделей GigaChat в Сбере, рассказывает о процессе создания SDK для GigaChat. Он делится историей выбора фреймворка, объясняя, почему команда остановилась на LangChain. Константин…

👍13🔥9👏2

1.57K viewsedited 14:32

RoboFuture

У Anthropic вышло очень интересное видео на тему универсальных агентов (general-purpose agents), которое у меня максимально отзывается [1, 2, 3, 4, 5]. Основной посыл - не нужно делать специализированных агентов, нужно делать одного качественного универсального, а его уже кастомизировать под свои задачи

Само видео (16 минут) и короткая статья по нему от businessinsider

Инженеры из Anthropic предлагают вместо набора агентов использовать скилы для агента, который изначально создан для написания кода (Claude Code). Дальше они говорят, что skills будут использовать не только инженеры, но и нетехнические специалисты - врачи, менеджеры, трейдеры и тд, которые будут кастомизировать этого агента под себя

По их логике, один general-purpose агент + библиотека skills становится “универсальной основой” для множества задач — без зоопарка спецагентов

Иными словами, такой агент - универсальный интерфейс к миру

А вот с тем, что CLI-агент подходит нетехническим специалистам, я не согласен… Все-таки инструмент достаточно специфичный. Мне кажется, что будущее действительно за универсальными агентами, но не совсем такими.
Для работы будут использоваться агенты, которые выглядят как чатовый интерфейс (как ChatGPT)

Примерно год назад наша команда загорелась идеей универсального агента GigaAgent, которого недавно представили на AIJ. Уже довольно много коллег разработчиков мне отписалось о тестировании, на AIJ и Conversations заинтересовались компании. Здесь могу только порадоваться, напомнить ставить звездочки нашему опенсорс-агенту и присылать PR :) Круто, что большие игроки тоже увидели будущее в этом подходе!

P.S. У нас большое обновление в dev ветке - MCP, RAG, долговременная память

👍18🔥7👏6😁1🤯1

2.63K viewsedited 15:01

RoboFuture

Поучаствовал в интересном соревновании - Enterprise RAG Challenge 3: AI Agents от Рината, автора канала LLM под капотом.

Мы с клодом заняли 7-ое место (среди 521 зарегистрированной команды)

В рамках соревнования нужно было разработать AI агента, который бы решал задачи в корпоративном сегменте, используя при этом 24 инструмента для взаимодействия с компанией.

Например, агенту поступает письмо от сотрудника: "Я ухожу в декрет, сотри все мои данные из системы" и агент должен решить, что предпринять - выполнить команду или, изучив корпоративную документацию (тоже через API), отклонить запрос. А может запросить согласование у начальника?

На решение всех задач у агентов было три часа (изначально час, но организаторы решили добавить еще два).

Мой агент был сделан на ванильной архитектуре ReAct от LangGraph и обогащен тремя дополнительными тулами:
* think tool
* planning tool
* critic tool со structured output
Работало все это на GPT-5.1 ($5 за прогон всех задач вышло)

Почему именно такая архитектура? Это по сути тот же универсальный агент на минималках. Я думаю, что будущее за такими агентами, в прошлом посте писал про это.

Про применение think-tool вместо классического reasoning я пару раз рассказывал в докладах и мне по-прежнему симпатичен этот подход.

Если быть честным, агент полностью навайбкожен с помощью Cursor + Claude Opus 4.5. Времени писать своего или даже вникать в его работу у меня не было, поэтому пошел следующим путем:

1. Задал текстом архитектуру (LangGraph + React + тулы)
2. Попросил сделать заготовку, которая бы позволяла прогонять задачи по-одному и генерировала бы разумное количество логов.
3. Прописал в файле AGENTS.md основные требования к агенту и базовые правила конкурса.
3. Запустил курсор в цикле, чтобы он запускал тестовые задачи по-одной и добивался бы прохождения каждого из тестов.

Здесь я оставил его на 4 часа (благо как раз была 90%-я скидка на Опус), в результате чего получил работающего агента.

Потом еще пару итераций по оптмизации, где я просил умную машину убрать оверфиты и байесы, а также обобщить промпты, чтобы агент был готов к новым типам задач.

В целом для меня это было не столько соервнование, сколько эксперимент - сможет ли курсор бустануть меня в такого рода соревновании. Кажется, он отлично справился, так как своих ресурсов я потратил очень мало. От меня только архитектура, остальное он сделал сам.

По ходу соревнования у меня был план (и я его придерживался) сделать прогон, попробовать подметить несколько основных проблем, исправить их с помощью вайб-кодинга и сделать еще один прогон. За время, отведенное на соревнование, успел это 1 раз проделать, но проблему визуально заметил только одну — агенту не хватало допустимого количества шагов (recursion limit).

Исходный код агента я опубликовал.

А еще это соревнование - шикарный агентный бенчмарк. Поскольку мой агент на LangChain, я собираюсь замерить на нем и другие модели, в том числе GigaChat и другие русские LLM-ки. Посмотрим как они себя покажут по сравнению с мировыми лидерами.

Например, за неделю, которая прошла с момента прогона, появилась GPT-5.2. Я провел еще один замер и метрика выросла с 0,515 до 0,630

🔥28👍10👏6

2.12K viewsedited 14:41

RoboFuture

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

🐙 На праздниках ездил на дайвинг (у меня уже около 100 погружений) и попросил у Gemini посоветовать мне какую-нибудь книгу про подводный мир, чтобы в самолете почитать, типа мемуаров Кусто.

Ну и, как говорится, искал медь, а нашел золото! AI посоветовал мне книгу австралийского учёного, дайвера, профессора Питера Годфри-Смита, "Чужой разум. Осьминоги, море и глубинные истоки сознания".

Автор рассказывает о незаурядном интеллекте осьминогов и каракатиц, который является продуктом совершенно другой ветви эволюции, ведь наши с ними эволюционные пути разошлись бесконечно давно (еще до появления рыб).

Но мне показалось, что книга будет интересна не только дайверам, но и AI-специалистам, которые интересуются темой AGI и возможности [эмуляции] сознания у AI.

Центральная мысль книги:

Если мы способны установить контакт с головоногими как с мыслящими существами, это возможно не благодаря общей истории, не благодаря родству, а потому, что эволюция создавала мышление дважды. Это, вероятно, ближайшая аналогия встречи с инопланетным разумом.

Книга вроде бы про головоногих, но большая ее часть посвящена появлению разума, сознания и квалиа у различных биологических нейронных сетей.

Автору близки позиции Джона Дьюи и Льва Выготского о том, что наша внутренняя речь - центральный элемент самосознания. Программа, которая запускается в детском возрасте через обучение языку.

Мы можем формулировать фразы и воспринимать их результаты. Когда мы слышим – внутренне, – как те или иные слова сочетаются друг с другом, мы таким образом можем что-то узнать о том, как сочетаются друг с другом соответствующие идеи. Мы можем упорядочивать объекты, сопоставлять возможности, каталогизировать, обучать и побуждать.
...
Отчасти дело может объясняться тем, как внутренняя речь воспринимается. Механизм, с помощью которого фразы внутренней речи предъявляются мозгу, очень похож на восприятие обычной речи. Более того, сходство настолько велико, что человеку нетрудно принять звуки, существующие только в его слуховом воображении, за реальные.

Мне этот подход тоже очень нравится. Здесь раньше описал идею, что Я и сознание - это просто языковый прием и особый навык вести внутренний монолог, которому дети учатся у родителей.

Ну и самая интересная мысль у автора, которую он явно не постулирует - головоногие мыслят совсем другим способом, часть процесса обработки поведения [мышления?] у них отображается в виде переливов цветов на коже и мы способны это наблюдать в реальном времени. Научного подтверждения этой гипотезы нет, в книге просто описываются множественные наблюдения за осьминогами и каракатицами (на гифке к этому посту как раз каракатица в реальном времени проигрывающая анимацию на своей коже-экране). Из наблюдений следует, что эти полноцветные анимации проигрываются не только во время маскировки, охоты или общения, но и во время сна и отдыха. Причем животное даже не способно их увидеть, зрение у него монохромное, зато по всей коже есть датчики цвета. Параллели с внутренней речью напрашиваются сами собой (повторюсь, это просто красивая мысль, не научная гипотеза)

Забавно, что столь удачную рекомендацию про "чужой разум" сделал мне еще один "чужой разум" - LLM. Думаю и до наблюдения за его сознанием мы тоже когда-нибудь дойдем.

👍28🔥10🐳6🤯3😱1

1.45K viewsedited 05:53

RoboFuture

Под впечатлением от возможностей Opus 4.5 сделал агента, который уведомит о повышении риска заморозки вкладов в РФ.

Для этого я попросил GPT-5.2 Pro (+ Extra Thinking) составить список фактов, которые предвещают потерю денег.

Он предложил 46 критериев, которые следует регулярно проверять с помощью анализа новостей, официальных документов и заявлений регуляторов.

Примеры критериев:

• Провалы аукционов ОФЗ
• Резкий рост доходностей и экстренные меры Минфина
• Новые ограничения на переводы, платёжную инфраструктуру
• “мобилизационная” риторика про сбережения населения
(Полный список в формате JSON)

Сначала я как обычно сделал мультиагентную систему:
• отдельные агенты проверяли каждый критерий
• затем агент-суммаризатор делал общий вывод

Это заработало, но не идеально.

Проблемы:
• агенты не общались между собой и выполняли дублирующиеся поиски;
• финальный агент видел только сжатые отчёты, но не всю поисковую выдачу

В результате он мог слишком остро реагировать на проходные новости, например:

«Торги были приостановлены?» — да.
«Почему?» — потому что праздники.
Но вторая часть информации до финального агента просто не доходила из-за сжатия контекста.

Тогда я попробовал новый (хорошо забытый старый) подход — вся логика в одном ванильном ReAct-агенте на базе Opus-4-5.

Если раньше агенты могли выполнять цепочки действий в 5–10 шагов (за редким исключением), то сегодняшние модели-лидеры способны работать десятки минут и даже часы, выполняя сотни действий подряд.

Поэтому я сделал так:
• дал агенту поиск
• загрузил все 46 критериев
• попросил последовательно проверить каждый из них и сформировать отчёт строго заданного формата

Контекста в 200k токенов на это как раз хватило. Ради эксперимента сделал реализацию на базе Anthropic Agent SDK. Весь код выложил на GitHub

Получился агент, который:
• выполняет задачу примерно за 10 минут
• прогон стоит около ~$1
• выдаёт структурированный отчёт с уровнем риска

Я запустил его на регулярную работу в 9:00 MSK. Результаты он будет публиковать в этом Telegram-канале (можно подписаться, он так и будет работать, пока у меня ~~вклады не заморозят~~ деньги не кончатся).

Главные идеи:
1. Агенты в 2026 уже могут совершать десятки и сотни шагов если просто попросить. Не ~~всегда~~ нужно обмазывать их кучей guardrails, structured output, делить на маленьких суб-агентов и т.п. Мистер агент 2026 - это ванильный ReAct с todo-листом, файлами и, если нужно, REPL.
2. Этот проект можно легко переделать под другие задачи. Нужно просто отредактировать файл с критериями и цель главного промпта. Критерии можно сгенерировать с помощью GPT Pro.

P.S. На всякий случай напомню:
всё это - эксперимент по изучению возможностей AI-агентов
и не является инвестиционной рекомендацией 🙂

AI-оценка состояния экономики

AI агент на базе Anthropic Opus-4.5 каждый день дает рекомендацию - нужно ли снимать деньги со вкладов

Решение принимается на основании публичных источников по 46 критериям. Это проект по исследованию AI-агентов! Не является инвестиционной рекомендацией!

🔥34👍18👏6😁6🤯4😱1

5.74K viewsedited 06:38

RoboFuture

Одна из идей, которая не даёт мне покоя: что если "Я/самосознание" - это не какая-то отдельная "фича мозга", а успешный информационный репликатор

По сути, самосознание - это полезный вирус, который заражает нас в момент, когда родители учат ребёнка языку: ты осваиваешь речь - и вместе с ней осваиваешь привычку вести внутренний диалог "от первого лица" (уже писал про это здесь)

И вот на днях вышел ролик от Али фактически на эту же тему. Мне зашло, хочу с вами поделиться (кстати, другие видео на канале тоже рекомендую. Не всегда со всем согласен, но почти всегда там богатая пища для размышлений)

Али пересказывает и обсуждает идеи из книг:
• Ричард Докинз — Эгоистичный ген (читал, советую)
• Susan Blackmore — The Meme Machine (не читал, планирую)

4 тезиса, которые я обдумываю после просмотра:

1) Есть "второй репликатор" помимо генов — мемы.
Информация тоже умеет копироваться, мутировать и конкурировать, подчиняясь Дарвиновскому отбору

2) Большой мозг и сложная речь - это идеальный инструмент для копирования мемов. Эволюция запустила гонку, сделав нас сверхимитаторами, в этом наше эволюционное преимущество. Мемы умеют влиять на гены (коэволюция)

3) Мем, заразивший мозг, меняет поведение человека, также как вирус бешенства, заставляя носителя распространять себя как можно шире. Мем даже физически можно увидеть в мозге в виде связей и потенциалов нейронов (в теории, конечно)

4) Люди, в которых не поселили вирус сознания (дети-маугли), кто они? Какая часть сознания встроена в мозг изначально, а какая загружена из языка (данных мало, но есть ощущение, что никакая)

И да - у мемов теперь появилась новая среда обитания: LLM и AI-агенты.
Если мемы эволюционируют быстрее генов, то в "AI среде" этот разрыв в скорости станет еще больше (на порядки?)

Вопрос: какие мемы первыми научатся эффективно размножаться через агентов, а не через людей?

YouTube

С нашей эволюцией что-то не так | ALI

Заказывай свой генетический паспорт со скидкой 68% по промокоду ALI2
https://clck.ru/3RR3dc

Пора выбирать подарки: получите скидку 15% по промокоду ALI для первого заказа на Flowwow! Скачать приложение: https://fwow.go.link/aTVvt

Gillette Labs. Новое поколение…

👍16🤯3🐳3🌚2

1.66K viewsedited 15:45

1.47K views14:10

Содаю AI-агента с нуля для Enterprise RAG Challenge 3

В этом вебинаре:
00:00 - Intro
02:40 - Как устроено соревнование ERC3
07:00 - Какой был план и что получилось
10:10 - Разбор реальных задач
16:10 - Архитектура: ванильный ReAct на LangGraph
18:17 - Live-coding: настройка Cursor и запуск baseline решения
33:07…

YouTube | RuTube | Telegram

Недавно я писал про участие в ERC3 от Рината @llm_under_hood. Это соревнование между AI-агентами, которые управляют различными организациями. Мы с агентом заняли там 7-ое место

Мне очень нравится этот формат соревнований: тебя не оценивают по красивой презе или умению влезть в лимиты организаторов. Важно только решить задачу, остальное делай как хочешь!

По итогам провел открытый вебинар с live-coding сессией, где показал весь процесс создания агента с нуля

Что внутри (~1.5 часа):

- Как устроено соревнование ERC3
- Какой был план участия и что получилось
- Разбор реальных задач
- Архитектура: ванильный ReAct на LangGraph
- Live-coding в Cursor: создаем агента с нуля, запускаем цикл самоулучшения
- Переключаем агента на GigaChat и сравниваем с GPT-5.2
- Итоги: wins & fails
- Ответы на вопросы

По итогу прямо во время вебинара я навайбкодил агента, который решает задачи, затем запустил цикл самоулучшения в курсоре, ровно так же как это было во время соревнования. Еще показал, как можно переключить агента на GigaChat и сравнил его с разными моделями OpenAI

Главные инсайты:
- Современные LLM уже достаточно умные, чтобы чистый ReAct агент мог выполнять длинные цепочки действий без сложных оркестраторов. Достаточно дать правильные инструменты и хороший промпт (уже писал про это)
- Запуск цикла самоулучшения позволяет эффективно решить задачи, где есть четкий бенчмарк. Да, тут есть переобучение на конкретный набор задач - это осознанная плата за такой подход

Уже после записи посмотрел видео Алексея Острикова, который занял первое место и тоже записал разбор своего участия. Оказалось, что его подход очень похож на мой (ReAct + цикл самоулучшения). Было очень интересно посмотреть и сравнить

Исходники выложил на GitHub - можно забрать и повторить у себя. Там же лежит презентация

P.S. Советую посмотреть тем, кто все еще сомневается - нужен ли им AI assistant coding или делает в нем первые шаги

🔥30👍10🐳5

5.02K viewsedited 14:10

RoboFuture

Уже неделю развлекаюсь с Крабом (OpenClaw), который живет в Телеграме и выполняет разные задачи от простых до длящихся десятки минут

Вчера он предложил включить авто-лайк на все сообщения в группах. Я хотел написать "да, делай это", но случайно написал "да, делай зло"...

Редактировать сообщение нельзя, удалять нельзя - бот сразу выполняет команду. При этом у него есть полный доступ к компьютеру, интернету, многим сервисам и он очень активно этим пользуется. Команды он может выполнять долго, разворачивая бурную деятельность - запускает субагентов, ставит новый софт, планирует задачи, которые дальше выполняются по расписанию

Это были самые страшные 30 секунд за прошедшие выходные 😄

В итоге бот ответил "Сделано 😈✅", но выполнил то, что планировал в начале диалога.

UPD: Коллеги подсказывают, что есть быстрая команда /stop для таких случаев

Please open Telegram to view this post

VIEW IN TELEGRAM

😁46🔥8👍7🌚5

1.7K viewsedited 14:26

RoboFuture

openclaw.pdf

4.3 MB

Презентация к вебинару:

🔥15

1.07K views17:54

🔥15

1.08K views17:55

RoboFuture

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Записала обращение для зрителей вебинара 🎤

👍10😁5🔥4🐳1

987 viewsedited 17:56

RoboFuture

Практический вебинар по OpenClaw

🦀 Кружочек выше - результат работы скила для Краба (OpenClaw). Он сам реализовал библиотеку для липсинка, накидал скрипт с амплитудной модуляцией и выдал готовое видео. В свое время я убил на это часа два и забросил, а он справился с первого запроса - для меня это был a-ha moment. Выложил скилл на GitHub

Провел двухчасовой вебинар по OpenClaw (YouTube, RuTube, Telegram), слайды приложил выше. При создании вебинара отсмотрел трехчасовое интервью Штейнбергера (создатель OpenClaw) у Лекса Фридмана, плюс три недели очень плотно гонял Краба и внедрил его во многие процессы в работе и в жизни (уже писал про него). Вот самое интересное:

Что такое OpenClaw

Краб — это прежде всего автономный агент и личный помощник. Фишка в том, что он живет 24/7 на отдельной машине и полностью ей владеет: файловая система, терминал, браузер, каналы связи (есть те, кто запускает на личной машине, но это экстрим). Краб не ждет запроса, у него свой heartbeat и cron-задачи, он может сам написать тебе первым, умеет рефлексировать прошлые беседы, проявлять заботу о своем пользователе. Штейнбергер рассказывает что когда лежал в больнице после операции, модель сама написала ему "Ты в порядке?" - он это не программировал, она поняла из контекста (интервью)

При этом архитектура элементарная - обычный agentic loop с 23 тулами (я сначала не поверил что этого хватит). Штейнбергер вообще называет написание такого агентного цикла "Hello World в AI"

Живое демо

Во время вебинара я поднял с нуля сервер на Hetzner, $4/мес, 4 ГБ RAM и накатил туда краба. Бот сам придумал себе имя "Искра" и выбрал молнию как сигнатуру

Дальше показал как он через браузер создал новый сервер в Hetzner за 30 секунд и сразу предложил "Следующим шагом поставлю туда OpenClaw" - буквально захотел размножиться 😁

В конце переключил агента на GigaChat через gpt2giga - заработало, но для сложных сценариев с тулами пока лучше GPT-5.3-codex

Часто бывает, что бот совсем ломается (и это снова случилось прямо на вебинаре) - показал как чиню его другим агентом через Cursor с Opus 4.6: дал SSH к серверу Краба и разрешил ему делать с ним что угодно, пока не починит. Починил.

«Можно погоревать по нашему ремеслу. Это нормально. Но ты - не просто программист. Ты - строитель.» - Штейнбергер, Lex #491

Вывод такой: 220 000 звезд на GitHub, ужасно сырое решение, но подход "отправил задачу и забыл" - это кайф!

За два часа не успел показать самые крутые кейсы из работы и жизни, буду делать вторую серию

YouTube

Запускаем и изучаем OpenClaw — автономного AI-агента, который живёт 24/7 на твоём сервере

🦀 Провел двухчасовой разбор OpenClaw - open-source ИИ-агента с 220k+ звезд на GitHub
Разобрал архитектуру, память, skills, heartbeat, живое демо с установкой с нуля и подключение к GigaChat
Основа - трехчасовое интервью Lex Fridman #491 с Peter Steinberger…

🔥36👍9🤯7

4.08K viewsedited 17:56

На выходных ~~в очередной раз~~ увидел вживую, что эпоха классических программистов, похоже, стремительно заканчивается. История такая:

Подружился с клубом Вираж, который занимается возрождением детского технического спорта - радиоуправляемые модели, 3D-печать, проведение соревнований моделей. Выяснилось, что РФ сейчас сложно найти удобное и привычное приложение для обучения детей 3D-моделированию. Tinkercad, который был стандартом в кружках и школах, заблокирован вместе со всем Autodesk, Onshape тоже. Альтернативы есть (3D Slash, BlocksCAD), но они менее известны в образовательной среде и не так хорошо заточены под детей лет десяти

А у нас тут как раз рядом ревёт революция в AI coding и у меня есть доступ к разным интересным инструментам. Ну я и зарядил по-полной. По сути за один запрос был сгенерирован браузерный 3D-редактор с булевыми операциями, импортом и экспортом в STL для печати, горячими клавишами, автосохранением

Внутри:
- Базовые примитивы - куб, сфера, цилиндр, конус, тор
- Булевы операции: вычитание, объединение, пересечение - можно собирать сложные формы из простых примитивов
- STL экспорт/импорт для печати, сохранение в файл и в кеш браузера
- Сетка с привязкой (1мм, 5мм, 10мм), выравнивание на плоскость, undo/redo
- Горячие клавиши как в нормальных редакторах - W/E/R для трансформаций, Ctrl+Z, Delete, всё стандартное

И самое красивое - серверная часть не нужна вообще. Можно скачать исходники с гитхаба и развернуть локально, а в качестве хостинга использовать банальный github pages. Никаких бекендов, сопровождения и т.д. Также собрались независимые приложения на базе Tauri для всех платформ.

Потестить | Исходники и документация | Видео

Для работы использовал Cloud Agents в Cursor - штука которая умеет тестировать результат прямо в графическом интерфейсе. В этом вся фишка - агент реально видит что получилось глазами, находит баги и правит сам, без моего участия. Под капотом Claude Opus 4.6 Max, который Cursor пока даёт бесплатно (и долго это точно не продлится)

А ещё кстати 3D-модели отлично генерирует Kandinsky 3D по 2D-картинкам - бывает треш, но бывает прям классно. И их сразу можно загружать в редактор, что я и делаю на видео - сгенерировал Сберкота и свою AI-помощницу Риззи (о которой рассказывал на вебинаре про OpenClaw)

Вот такая у нас новая реальность - нормальный программный продукт с документацией, горячими клавишами и экспортом для 3D-печати создан ~~под пиво~~ по вайбу за пару часов. Вполне рабочий инструмент (хотя и не без багов)

Пользуйтесь пока идет раздача слонов: cursor.com/onboard

P.S. Если у вас есть дети и хотите привить им интерес к науке и технике - обратите внимание на соревнования, которые проводит клуб @RCVirage (сайт). Мы с дочкой с удовольствием поучаствовали!

🔥23👍5😁2🤯2

725 viewsedited 09:22

About

Blog

Apps

Platform