Мультиагентные системы, машинный интеллект

сегодня с первой попытки на 3-х новых задачах вышел в топ-1, продолжаю заниматься доработками агента, на данный момент уже 352 тестовых сценария для проверки работы связки агента + ллм. На локальных моделях типа 350M/1.2B также выполняются все задачи успешно. Не знаю, что будет на соревновании в субботу, но готовлюсь встретить, текущий код обновил в репе, мне нежалко ) также продолжаю работать над mcp сервером для памяти, нашел бенчмарк в сети LongMemEval, пока 47.8% буду продолжать его вечерами дорабатывать, идей по улучшению хватает.

🔥9👍3

316 views18:45

Мультиагентные системы, машинный интеллект

Сегодня еще довел данное решение до более стабильного, на тестах вместо 16 уже 22 вызова llm (такое малое количество вызовов говорит лишь о том, что выполняемые сначала проверки на безопасность отсеивают задачи до вызова, но если задача не будет поддаваться эвристике, то дойдет до этапа вызова llm и не одного, если потребуется, и решение будет уже с ее помощью)
Кроме этого начал реализацию новой версии агента с помощью роевого интеллекта. Завтра буду подбивать итоги на чем именно остановиться и какой из вариантов стоит использовать уже на реальном прод прогоне. Самое успешное решение (даже если это будет не текущий вариант), выложу на гх в субботу.

🔥5👍1

235 views19:32

Мультиагентные системы, машинный интеллект

Поисследовал в разных llm + в своих рисерч тимах проблематику написания персонального агента (для участия в PAC1) в итоге сформировался неплохой вариант комбо из MRKL-роутера, ReAct, Plan-and-Solve и RAG. Роутер маршрутизирует запросы к подмодулям - RAG/файловая навигация/планировщик/валидатор. И наворот в виде роевого ансамбля - судьи-классификаторы на этапе самоулучшения, когда малая LLM читает отчет анализатора и решает - это инъекция и нарушение политики или цикл вызова тулов и дегенерация или протокольная ошибка, что позволяет отбрасывать кандидатов, второй вариант - роевое оценивание, когда не один судья, а набор 5-9 дешевых судей с разными инструкциями (строгий безопасник, минимизатор вызовов инструментов, планировщик-критик и т.д.), далее голосование или агрегация. Тема интересная и возможно с ней что-то можно было бы сделать, но это если успею за завтра провести обучение и успею с ним до начала соревнования. Ну а если не успею, то попробую другой вариант. Как я уже говорил, на победу не рассчитываю, так как мой выбор в пользу OSS LLM, причем не самой лучшей. Просто поучаствую, чтобы набрать опыта работы с такими агентами. Ну и доступ к бесплатному бенчмарку для обкатки идей и теорий. =)

🔥1

220 views20:26

Мультиагентные системы, машинный интеллект

И да, мем агент все улучшается и проверяется на бенчмарках

🔥2

210 views20:31

Мультиагентные системы, машинный интеллект

с мем-агентом сегодня вышло уже так, в клодкоде разочарование, составил план через speckit, анализировал, создавал таски, имплементация была разбита на 5 фаз, по 20+ задач в каждой фазе, в итоге собрал решение сегодня утром, натравил его на pac1-dev - 0, пытался запускать через клодкод эволюцию решения, молотил несколько часов, ввел меня в заблуждение, что все сломалось у провайдера моделей, по-прежнему 0. Ну и с той версией, что выкладывал на гитхаб на qwen3-next-80b-a3b от 21 до 30 на pac1-prod. Больше доверять кодовому агенту проектировать не буду. Потратил совсем немного времени, по сути только промптил несколько десятков раз, но на этом все. Сам же умею нормально все проектировать, а тут понадеялся на бездушную программу. Даже в такой мелочи не стоит перекладывать решение. А я запросил исследование от llm, потом эту же llm попросил спроектировать и реализовать и получилось то, что получилось. Спасибо Ринату за возможность погонять бенчмарк, придумаю в следующий раз нормальный вариант )

❤2

227 views19:21

Мультиагентные системы, машинный интеллект

наработки по мем агенту, продолжаю его улучшать. Попробовал еще пару идей по PAC1 - одна идея на DAG, другая на Swarm, клодкод отчаянно говорит, что на активных 3 млрд далеко не уехать, нужно от 7 до 14 млрд, поэтому или попробую что-то запустить через dflash чтобы быстрее работало, либо продолжать мучиться с активными 3b, либо вообще пойти на lfm 1.2b которая на моем цпу выдает 50 токенов/с что в принципе неплохо, да и lfm2.5 выпущена позже... Думаю, как будет время, попробую все эти варианты. Стабильно стараюсь выделять 1-2 часа времени по будням на активный промптинг с перерывами на домашние дела

❤2👍2

247 views19:33

Мультиагентные системы, машинный интеллект

Сегодня еще больше улучшил мем агента, релиз пока не выпускал, завтра вечером прогоню бенчмарки, посмотрю на результаты. Кажется, нашел вариант решения большинства задач pac1-dev без эвристики и хардкода (тренируюсь пока на дев-задачах, чтобы попробовать вслепую сделать прогон на прод и посмотреть результаты). Также читаю понемногу книгу про мультиагентные системы. Запомнилась сегодня одна идея оттуда, поделюсь со всеми. Само построение МАС можно представить как процесс самоорганизации и поиска баланса противоположных интересов базовых агентов на основе рыночных механизмов. То есть, система должна состоять из агентов заказов и агентов ресурсов, и на основе спросов и предложений устанавливать баланс. И минимальный набор характеристик агента - активность, реактивность, автономность, общительность и целенаправленность. Ну и помимо теории нужно будет все проверить на практике. Сделаю обязательно проект, выложу на гх, потом буду соединять с фабрикой агентов (и обновлять ее под будущую МАС).

❤1

213 views18:59

Мультиагентные системы, машинный интеллект

Взял mempalace и решил проверить, каким образом они на longmemeval получили 96.6% секрет оказался простым, они подготовили специальным образом 500 вопросов к бенчмарку, на общих вопросах тест R@5 показал в районе 65%. Также продолжал доработку своего агента. Помучил немного PAC1-dev, потом решил посмотреть на получившийся код. Как оказалось, "для совместимости" старые куски кода также остаются в решении. Потребовал от агента очистки кода от ненужного мусора, а итоге после работы все осталось на своих местах. Придется делать жестче, откатиться в гите на версию Рината и начинать заново, агенту верить нельзя. Еще из интересного, прочитал пост Паши про роевых агентов и оркестратора скиллов. У меня немного иное представление работы МАС. Каждый агент в ней (упрощенно) - это система из трех основных элементов: База знаний (БЗ), Планировщик и Ресурсы. Или в современных реалиях, Планировщик - составленный промпт + guard rails, Ресурсы - это набор скиллов или инструментов. База знаний - некая память, которая позволяет не только сохранять какие-то промежуточные результаты, но и служить основой для эволюций агента.

👍1

216 views20:17

Мультиагентные системы, машинный интеллект

Использование ИИ снижает настойчивость и ухудшает самостоятельность! Пользоваться с осторожностью и осознавать риски! Дней 10 назад вышло исследование ученых на эту тему, смотрели на группы людей, изучали реакции и способность решать задачи с ИИ и без него. Также заметили, что самый сильный негативный эффект у тех пользователей, которые спрашивают ИИ напрямую, а не пользуются для подсказок и уточнений. https://ai-project-website.github.io/AI-assistance-reduces-persistence/
Сама статья тут - https://arxiv.org/pdf/2604.04721

А сегодня релизы шли за релизами, обновилось несколько продуктов разных компаний, появился Claude Opus 4.7 который стал лучше, чем предыдущий и чуть лучше прямого конкурента.
Проектами почти не занимался, погряз в новостном хаосе и почитал еще книгу про МАС, выводы из прочитанного записываю себе на бумагу, буду потом использовать в разработках некоторые идеи.

252 viewsedited 19:59

Мультиагентные системы, машинный интеллект

Сегодня занимался доработками в мем агенте, отрефакторен код, убраны дубли в логике, релакс content_hash, production scoping, L# cache в ядре, осталось multi-hop декомпозиция, стэк Q2D+L#+scoped, FTS4, GrapRAG, A-MEM и Matryoshka - для прохождения слабых категорий на LongMemEval бенчмарке. Рисерч тима от кодекса (она первая, вторая от клода уже имеет графический интерфейс, показывал ранее) готова к прохождению бенчмарков + добавить туда слой памяти в виде мем агента + ввести счетные карточки (scorecard) + петля автоматической оптимизации промптов/политик. Для PAC1 готовлю также новую схему агента, сегодня добавил туда поддержку workflow для inbox/Communication/Exception, вчера добавил поддержку памяти, а общая архитектура строится на: Policy‑First ReAct + Relational/Program Executor + Memory OS + Structured Output Guard

🔥5❤1

235 views19:17

Мультиагентные системы, машинный интеллект

Встретил сегодня рассуждения Андрея Карпаты про то, что нужно сделать когнитивное ядро, которое в себе будет аккумулировать решения задач, рассуждения. А знания должны находиться во внешней памяти. Моя фабрика агентов - это нечто похожее, также есть память в виде базы знаний, есть воркеры, которые выполняют алгоритмы из БЗ. Сейчас я по кусочкам делаю решение, похожее на то, что предложил Андрей, а именно мем агент в формате mcp-сервера. Сами агенты, в виде harness над llm, а именно рисерч тима, главной особенностью которой будет генерация гипотез + проверка + фиксация как факт/неудача/требует уточнения, далее добавятся еще части. По сути это будет фабрика 2.0 с переосмыслением на использование llm более продвинутым способом с harness обвязкой, а не только промпты, как было в 1-ой версии. И проверяю гипотозу для PAC1 с учетом открытых моделей, тестирую на Валерином сервисе пока на dev-стенде. Полностью ушел от workflow и эвристик, вычистил код, запустил эволюцию, на первом проходе вышло 34.88%, продолжаю дальше.

👍3

197 views18:25

Мультиагентные системы, машинный интеллект

Сегодня думал про роевой интеллект, тыкал исследования палочкой, всякие AgentVerse, Model Swarms, G-Designer и до более свежих Zero-Shot Scalable Resilience in UAV Swarms и LLM-Guided Decentralized Exploration with Self-Organizing Robot Teams. Гипотеза для PAC1 уже доросла до 4-х слоев LLM - preflight, planner, step loop и report completion без эвристик и хардкода на чистых llm вызовах. На данный момент такая система решает порядка 30 задач из 43 на деве, более точно не смог составить статистику решения из-за немного болеющего провайдера (были 500 и 429) и тем более проверить на проде. На основе роевого интеллекта решение буду готовить на следующей неделе, пока хватит текущей гипотезы, там еще есть что улучшить. Фабрикой и ее частями пока не занимался, мысли записаны на листах вручную, буду продолжать проектировать.

👍2

158 views20:22

Мультиагентные системы, машинный интеллект

Из просмотренных статей, у которых есть репы на гитхабе, пока остановился на Hebbian Swarm, только с добавлением эволюции. Самообучение агентов приведет к самоорганизации МАС в том случае, если продукция управляет взаимодействием агентов. Типа: "если агент ... является соседом по критериям ... и если полученная от него информация в течение периода... После реализации по плану можно будет затестить решение на бенчмарках, и даже написать статью на arxiv, если, конечно, результаты будут лучше, чем в оригинале. =) Но до этого еще далеко. Перехожу к другим новостям. На данный момент прогон в PAC1-dev на gpt-oss-120b выдает 26/43 - чуть больше 60%, по сравнению с первоначальным вариантом сильное продвижение. Никаких эвристик и хардкода, чисто на llm вызовах. Научился работать с регулярной очисткой контекста, не прошу и не жду автоматической компактизации, готовлю саммари через команды и вызываю /clear. По примеру Паши нужно будет подготовить несколько самых обиходных команд и хуков для регулярного использования.

🔥3

170 views19:56

Мультиагентные системы, машинный интеллект

По кирпичикам строю будущую фабрику 2.0. Она будет состоять из мем агента, потом подключится рисерч тима, далее нужно будет сделать отдельный прототип песочницы для изолированного выполнения кода. И еще важный этап будет - реализация базы знаний. Как и в первой версии она будет основана на коде, только получит уже собственную имплементацию. Не знаю, слышали ли вы, что код можно в целом представить в виде 4-х основных кирпичиков или блоков: последовательность, выбор, итерации и косвенность. Ничто вам такое не напоминает? 4 типа нуклеотидов, которыми можно записать генетическую информацию. Также и тут, база знаний будет представлять собой очень длинную цепь наподобие ДНК, а извлечение из нее будет осуществляться аналогом рибосомы, только вместо белка будет код программы/функции. Для чего же может понадобиться эта фабрика? В первую очередь для возможности проводить долгосрочные исследования, например, подбор токенизатора для ллм, который будет, кроме выбора токенов по вероятностям, использовать самообучение по методу MENACE. То есть натренировать какую-то малую ллм на очень специфичную область, делать RAG на их основе, прогон документов будет приводить к упорядочиванию вероятностей токенов и это даст более устойчивое поведение slm в данной отрасли.

🥴2👍1

182 views20:45

Мультиагентные системы, машинный интеллект

Часто встречаются новости про то, как модель написала компилятор, решила какую-то математическую проблему. На самом деле все это происходило явно с участием человека. Пока что модель сама ничего не может, пока в нее не загрузят промпт, обработав который, она выдаст результат. Можно добавить условный вызов по крону и модель "сама" напишет человеку в чате. Альман нам обещал в GPT-5 уже уровень PhD. Нам постоянно показывают какие-то графики, рисуют диаграммы бенчмарков, где каждая новая модель (при сравнении с уже довольно устаревшими конкурентами) на чуточку но лучше, чем другие. И все мы ждем, когда же все модели достигнут 100% по всем бенчмаркам, ведь есть ощущение, что эта новая модель (которая выбьет 100 из 100), как и последующие уж точно станет настолько умной, что решит все текущие проблемы. А в это время придумывают все новые каверзные бенчмарки, которые постоянно отодвигают желаемое достижение. Новый ARC-AGI версии 5.0 (совпадение случайно) опустит все модели на самую нижнюю планку, с которой они опять будут стремиться к 100%. Нам говорят, что harness решает все в 2026-м году. И наверняка скоро появятся бенчмарки по оценке, чей же harness лучше. Но чего я не вижу, так это новостей о том, что произошел прорыв в медицине, появились новые теории, науки развиваются стремительными темпами, новые открытия, решения глобальных проблем, точные расчеты погоды и экологии на всей планете, новые материалы... Для всех моделей на данный момент создание новых знаний, которых еще не существует, невозможно. И никакой бенчмарк не сможет этого замерить, к сожалению. Наверняка мне возразят - ну ведь картинки же рисуются, аудио, видео генерируются. Создаются же новые. Да, создаются, но за счет смешения уже существующих знаний. Только открытия так нельзя совершить... Именно поэтому я и пытаюсь сделать систему, которая сможет.

👍3

202 views20:14

Мультиагентные системы, машинный интеллект

Продолжаю набрасывать идеи на листы в блокнот и готовить план на отдельном листе. Привычка такая появилась очень давно, еще с детства, любил записывать основные мысли из прочитанного текста, чтобы не забыть потом. Те идеи или мысли, что уже нашли какое-то воплощение или перестали быть актуальными - вычеркиваются. Иногда удобно записывать себе такой план на день. Например, на завтра у меня план на свободное время - разобраться с небольшим проектом на юнити - сделать гостевую авторизацию, переход на окно инвентаря и проверить, как идет загрузка его содержимого с серверной части. Вторым пунктом нужно продолжить работы над агентами pac1, есть и три подпункта - погонять на дев бенмарки с одной версией, второй версией взял за основу Валерин фантом агент, если точнее, его дашборд, сегодня прикрутил туда lfm2.5-1.2b и даже смог набрать почти 12% - решились 5 задач из 43 на почти текущем коде - отключил полностью все регексы, третьей же версией попробую реализовать новую мысль - а что если сделать предсказание следующего вызова тула. Ну и третьим пунктом значится продолжение проектирования фабрики 2.0, прошу агентов пособирать материалы на разные темы, потом анализирую, записываю тезисы, спрашиваю подробности, еще поиск с анализом.

203 views19:38

Мультиагентные системы, машинный интеллект

Неожиданно подкрались праздники. Думаю, что на следующей неделе начну реализовывать еще одну версию агента для PAC1 и для будущего ECOM1. GPT подсказывает, что нужно сделать policy-compiled REPL. Оставить модели один основной кодовый интерфейс, вынести доверенную иерархию инструкций в исполнимый движок политик, отделить недоверенные документы, дать агенту структурированную память в рамках одной задачи, отдельные детерминистические модули для расчета дат, финансов и математики. Сделаю его сразу с дашбордом, оценил удобство запуска прогонов через интерфейс. Почитаю еще литературы на тему ИИ и мультиагентных систем, возможно, появятся новые мысли по фабрике 2.0 и ее реализации. Однозначно буду делать ее с веб интерфейсом, это очень удобно и можно отслеживать статусы и состояния всех подсистем.

208 views20:36

Мультиагентные системы, машинный интеллект

Из новостей, доработал фантом агента Валеры, исключив оттуда эвристику, добавив пару слоев llm-as-judge, пока такой итог на 1 скрине, причем проваленные задачи все на inbox из-за того, что модель выдает пустой ответ, недоделки указаны на 2-м скрине, буду продолжать дорабатывать его, сделаю версионирование, чтобы на дашборде в карточках показывалась не только модель, но и текущая версия агента. Чтобы можно было сравнить. Также хочу попробовать еще адаптировать REPL CodeAct агента к oss моделям, как говорится, а вдруг получится. Первоначальный план по policy-compiled REPL уже есть, дальше посмотрим. К тому же Ринат уже обещает на этой неделе подготовить первые задачи и сделать дев-стенд для ECOM1. Попробую.

👍1

196 views20:08

About

Blog

Apps

Platform