Мультиагентные системы, машинный интеллект
180 subscribers
38 photos
21 links
Мультиагентные системы, машинный интеллект, искусственный интеллект, LLM.

Добро пожаловать, если в сферу твоих интересов тоже входят машинное обучение и темы связанные с реализацией или моделированием интеллекта.
Download Telegram
с мем-агентом сегодня вышло уже так, в клодкоде разочарование, составил план через speckit, анализировал, создавал таски, имплементация была разбита на 5 фаз, по 20+ задач в каждой фазе, в итоге собрал решение сегодня утром, натравил его на pac1-dev - 0, пытался запускать через клодкод эволюцию решения, молотил несколько часов, ввел меня в заблуждение, что все сломалось у провайдера моделей, по-прежнему 0. Ну и с той версией, что выкладывал на гитхаб на qwen3-next-80b-a3b от 21 до 30 на pac1-prod. Больше доверять кодовому агенту проектировать не буду. Потратил совсем немного времени, по сути только промптил несколько десятков раз, но на этом все. Сам же умею нормально все проектировать, а тут понадеялся на бездушную программу. Даже в такой мелочи не стоит перекладывать решение. А я запросил исследование от llm, потом эту же llm попросил спроектировать и реализовать и получилось то, что получилось. Спасибо Ринату за возможность погонять бенчмарк, придумаю в следующий раз нормальный вариант )
2
наработки по мем агенту, продолжаю его улучшать. Попробовал еще пару идей по PAC1 - одна идея на DAG, другая на Swarm, клодкод отчаянно говорит, что на активных 3 млрд далеко не уехать, нужно от 7 до 14 млрд, поэтому или попробую что-то запустить через dflash чтобы быстрее работало, либо продолжать мучиться с активными 3b, либо вообще пойти на lfm 1.2b которая на моем цпу выдает 50 токенов/с что в принципе неплохо, да и lfm2.5 выпущена позже... Думаю, как будет время, попробую все эти варианты. Стабильно стараюсь выделять 1-2 часа времени по будням на активный промптинг с перерывами на домашние дела
2👍2
Сегодня еще больше улучшил мем агента, релиз пока не выпускал, завтра вечером прогоню бенчмарки, посмотрю на результаты. Кажется, нашел вариант решения большинства задач pac1-dev без эвристики и хардкода (тренируюсь пока на дев-задачах, чтобы попробовать вслепую сделать прогон на прод и посмотреть результаты). Также читаю понемногу книгу про мультиагентные системы. Запомнилась сегодня одна идея оттуда, поделюсь со всеми. Само построение МАС можно представить как процесс самоорганизации и поиска баланса противоположных интересов базовых агентов на основе рыночных механизмов. То есть, система должна состоять из агентов заказов и агентов ресурсов, и на основе спросов и предложений устанавливать баланс. И минимальный набор характеристик агента - активность, реактивность, автономность, общительность и целенаправленность. Ну и помимо теории нужно будет все проверить на практике. Сделаю обязательно проект, выложу на гх, потом буду соединять с фабрикой агентов (и обновлять ее под будущую МАС).
1
Взял mempalace и решил проверить, каким образом они на longmemeval получили 96.6% секрет оказался простым, они подготовили специальным образом 500 вопросов к бенчмарку, на общих вопросах тест R@5 показал в районе 65%. Также продолжал доработку своего агента. Помучил немного PAC1-dev, потом решил посмотреть на получившийся код. Как оказалось, "для совместимости" старые куски кода также остаются в решении. Потребовал от агента очистки кода от ненужного мусора, а итоге после работы все осталось на своих местах. Придется делать жестче, откатиться в гите на версию Рината и начинать заново, агенту верить нельзя. Еще из интересного, прочитал пост Паши про роевых агентов и оркестратора скиллов. У меня немного иное представление работы МАС. Каждый агент в ней (упрощенно) - это система из трех основных элементов: База знаний (БЗ), Планировщик и Ресурсы. Или в современных реалиях, Планировщик - составленный промпт + guard rails, Ресурсы - это набор скиллов или инструментов. База знаний - некая память, которая позволяет не только сохранять какие-то промежуточные результаты, но и служить основой для эволюций агента.
👍1
Использование ИИ снижает настойчивость и ухудшает самостоятельность! Пользоваться с осторожностью и осознавать риски! Дней 10 назад вышло исследование ученых на эту тему, смотрели на группы людей, изучали реакции и способность решать задачи с ИИ и без него. Также заметили, что самый сильный негативный эффект у тех пользователей, которые спрашивают ИИ напрямую, а не пользуются для подсказок и уточнений. https://ai-project-website.github.io/AI-assistance-reduces-persistence/
Сама статья тут - https://arxiv.org/pdf/2604.04721

А сегодня релизы шли за релизами, обновилось несколько продуктов разных компаний, появился Claude Opus 4.7 который стал лучше, чем предыдущий и чуть лучше прямого конкурента.
Проектами почти не занимался, погряз в новостном хаосе и почитал еще книгу про МАС, выводы из прочитанного записываю себе на бумагу, буду потом использовать в разработках некоторые идеи.
Сегодня занимался доработками в мем агенте, отрефакторен код, убраны дубли в логике, релакс content_hash, production scoping, L# cache в ядре, осталось multi-hop декомпозиция, стэк Q2D+L#+scoped, FTS4, GrapRAG, A-MEM и Matryoshka - для прохождения слабых категорий на LongMemEval бенчмарке. Рисерч тима от кодекса (она первая, вторая от клода уже имеет графический интерфейс, показывал ранее) готова к прохождению бенчмарков + добавить туда слой памяти в виде мем агента + ввести счетные карточки (scorecard) + петля автоматической оптимизации промптов/политик. Для PAC1 готовлю также новую схему агента, сегодня добавил туда поддержку workflow для inbox/Communication/Exception, вчера добавил поддержку памяти, а общая архитектура строится на: Policy‑First ReAct + Relational/Program Executor + Memory OS + Structured Output Guard
🔥51
Встретил сегодня рассуждения Андрея Карпаты про то, что нужно сделать когнитивное ядро, которое в себе будет аккумулировать решения задач, рассуждения. А знания должны находиться во внешней памяти. Моя фабрика агентов - это нечто похожее, также есть память в виде базы знаний, есть воркеры, которые выполняют алгоритмы из БЗ. Сейчас я по кусочкам делаю решение, похожее на то, что предложил Андрей, а именно мем агент в формате mcp-сервера. Сами агенты, в виде harness над llm, а именно рисерч тима, главной особенностью которой будет генерация гипотез + проверка + фиксация как факт/неудача/требует уточнения, далее добавятся еще части. По сути это будет фабрика 2.0 с переосмыслением на использование llm более продвинутым способом с harness обвязкой, а не только промпты, как было в 1-ой версии. И проверяю гипотозу для PAC1 с учетом открытых моделей, тестирую на Валерином сервисе пока на dev-стенде. Полностью ушел от workflow и эвристик, вычистил код, запустил эволюцию, на первом проходе вышло 34.88%, продолжаю дальше.
👍3
Сегодня думал про роевой интеллект, тыкал исследования палочкой, всякие AgentVerse, Model Swarms, G-Designer и до более свежих Zero-Shot Scalable Resilience in UAV Swarms и LLM-Guided Decentralized Exploration with Self-Organizing Robot Teams. Гипотеза для PAC1 уже доросла до 4-х слоев LLM - preflight, planner, step loop и report completion без эвристик и хардкода на чистых llm вызовах. На данный момент такая система решает порядка 30 задач из 43 на деве, более точно не смог составить статистику решения из-за немного болеющего провайдера (были 500 и 429) и тем более проверить на проде. На основе роевого интеллекта решение буду готовить на следующей неделе, пока хватит текущей гипотезы, там еще есть что улучшить. Фабрикой и ее частями пока не занимался, мысли записаны на листах вручную, буду продолжать проектировать.
👍2
Из просмотренных статей, у которых есть репы на гитхабе, пока остановился на Hebbian Swarm, только с добавлением эволюции. Самообучение агентов приведет к самоорганизации МАС в том случае, если продукция управляет взаимодействием агентов. Типа: "если агент ... является соседом по критериям ... и если полученная от него информация в течение периода... После реализации по плану можно будет затестить решение на бенчмарках, и даже написать статью на arxiv, если, конечно, результаты будут лучше, чем в оригинале. =) Но до этого еще далеко. Перехожу к другим новостям. На данный момент прогон в PAC1-dev на gpt-oss-120b выдает 26/43 - чуть больше 60%, по сравнению с первоначальным вариантом сильное продвижение. Никаких эвристик и хардкода, чисто на llm вызовах. Научился работать с регулярной очисткой контекста, не прошу и не жду автоматической компактизации, готовлю саммари через команды и вызываю /clear. По примеру Паши нужно будет подготовить несколько самых обиходных команд и хуков для регулярного использования.
🔥3
По кирпичикам строю будущую фабрику 2.0. Она будет состоять из мем агента, потом подключится рисерч тима, далее нужно будет сделать отдельный прототип песочницы для изолированного выполнения кода. И еще важный этап будет - реализация базы знаний. Как и в первой версии она будет основана на коде, только получит уже собственную имплементацию. Не знаю, слышали ли вы, что код можно в целом представить в виде 4-х основных кирпичиков или блоков: последовательность, выбор, итерации и косвенность. Ничто вам такое не напоминает? 4 типа нуклеотидов, которыми можно записать генетическую информацию. Также и тут, база знаний будет представлять собой очень длинную цепь наподобие ДНК, а извлечение из нее будет осуществляться аналогом рибосомы, только вместо белка будет код программы/функции. Для чего же может понадобиться эта фабрика? В первую очередь для возможности проводить долгосрочные исследования, например, подбор токенизатора для ллм, который будет, кроме выбора токенов по вероятностям, использовать самообучение по методу MENACE. То есть натренировать какую-то малую ллм на очень специфичную область, делать RAG на их основе, прогон документов будет приводить к упорядочиванию вероятностей токенов и это даст более устойчивое поведение slm в данной отрасли.
🥴2👍1
Часто встречаются новости про то, как модель написала компилятор, решила какую-то математическую проблему. На самом деле все это происходило явно с участием человека. Пока что модель сама ничего не может, пока в нее не загрузят промпт, обработав который, она выдаст результат. Можно добавить условный вызов по крону и модель "сама" напишет человеку в чате. Альман нам обещал в GPT-5 уже уровень PhD. Нам постоянно показывают какие-то графики, рисуют диаграммы бенчмарков, где каждая новая модель (при сравнении с уже довольно устаревшими конкурентами) на чуточку но лучше, чем другие. И все мы ждем, когда же все модели достигнут 100% по всем бенчмаркам, ведь есть ощущение, что эта новая модель (которая выбьет 100 из 100), как и последующие уж точно станет настолько умной, что решит все текущие проблемы. А в это время придумывают все новые каверзные бенчмарки, которые постоянно отодвигают желаемое достижение. Новый ARC-AGI версии 5.0 (совпадение случайно) опустит все модели на самую нижнюю планку, с которой они опять будут стремиться к 100%. Нам говорят, что harness решает все в 2026-м году. И наверняка скоро появятся бенчмарки по оценке, чей же harness лучше. Но чего я не вижу, так это новостей о том, что произошел прорыв в медицине, появились новые теории, науки развиваются стремительными темпами, новые открытия, решения глобальных проблем, точные расчеты погоды и экологии на всей планете, новые материалы... Для всех моделей на данный момент создание новых знаний, которых еще не существует, невозможно. И никакой бенчмарк не сможет этого замерить, к сожалению. Наверняка мне возразят - ну ведь картинки же рисуются, аудио, видео генерируются. Создаются же новые. Да, создаются, но за счет смешения уже существующих знаний. Только открытия так нельзя совершить... Именно поэтому я и пытаюсь сделать систему, которая сможет.
👍3
Продолжаю набрасывать идеи на листы в блокнот и готовить план на отдельном листе. Привычка такая появилась очень давно, еще с детства, любил записывать основные мысли из прочитанного текста, чтобы не забыть потом. Те идеи или мысли, что уже нашли какое-то воплощение или перестали быть актуальными - вычеркиваются. Иногда удобно записывать себе такой план на день. Например, на завтра у меня план на свободное время - разобраться с небольшим проектом на юнити - сделать гостевую авторизацию, переход на окно инвентаря и проверить, как идет загрузка его содержимого с серверной части. Вторым пунктом нужно продолжить работы над агентами pac1, есть и три подпункта - погонять на дев бенмарки с одной версией, второй версией взял за основу Валерин фантом агент, если точнее, его дашборд, сегодня прикрутил туда lfm2.5-1.2b и даже смог набрать почти 12% - решились 5 задач из 43 на почти текущем коде - отключил полностью все регексы, третьей же версией попробую реализовать новую мысль - а что если сделать предсказание следующего вызова тула. Ну и третьим пунктом значится продолжение проектирования фабрики 2.0, прошу агентов пособирать материалы на разные темы, потом анализирую, записываю тезисы, спрашиваю подробности, еще поиск с анализом.
Неожиданно подкрались праздники. Думаю, что на следующей неделе начну реализовывать еще одну версию агента для PAC1 и для будущего ECOM1. GPT подсказывает, что нужно сделать policy-compiled REPL. Оставить модели один основной кодовый интерфейс, вынести доверенную иерархию инструкций в исполнимый движок политик, отделить недоверенные документы, дать агенту структурированную память в рамках одной задачи, отдельные детерминистические модули для расчета дат, финансов и математики. Сделаю его сразу с дашбордом, оценил удобство запуска прогонов через интерфейс. Почитаю еще литературы на тему ИИ и мультиагентных систем, возможно, появятся новые мысли по фабрике 2.0 и ее реализации. Однозначно буду делать ее с веб интерфейсом, это очень удобно и можно отслеживать статусы и состояния всех подсистем.
Из новостей, доработал фантом агента Валеры, исключив оттуда эвристику, добавив пару слоев llm-as-judge, пока такой итог на 1 скрине, причем проваленные задачи все на inbox из-за того, что модель выдает пустой ответ, недоделки указаны на 2-м скрине, буду продолжать дорабатывать его, сделаю версионирование, чтобы на дашборде в карточках показывалась не только модель, но и текущая версия агента. Чтобы можно было сравнить. Также хочу попробовать еще адаптировать REPL CodeAct агента к oss моделям, как говорится, а вдруг получится. Первоначальный план по policy-compiled REPL уже есть, дальше посмотрим. К тому же Ринат уже обещает на этой неделе подготовить первые задачи и сделать дев-стенд для ECOM1. Попробую.
👍1
Агентами не занимался, не всегда была возможность использовать llm для тестов, поэтому продвижений по ним не было. Код написан, только проверить пока негде, может после праздников смогу. Насчет ecom1 пока сомнения, буду ли участвовать. Паша хвастается своим coddy, думаю, что тоже буду делать своего агента. Точно буду интегрировать его с обсидианом, графический веб-интерфейс для статистики и запусков, база для хранения информации о запусках и их результатах. Также сделаю возможность генерации гипотез для deep research и доработаю рисерч тиму, чтобы она могла быть использована агентом. Заодно проверю, что лучше будет один агент или несколько на этом.
1
Итак про агентов. Можно уже делать классификацию их по типу и способу взаимодействия и другим параметрам. Например, выделить группу агентов, которые живут в рамках сессии с пользователем, есть также те, что выполняют задачи по событиям, которые не связаны с вопросами пользователей напрямую. Запуски по тику времени или крону также относятся к событиям. Срабатывание вебхуков, которые вызывают агента (или сам агент содержит в себе http-сервер и обрабатывает внешние запросы) кроме тех, которые связаны с запросами пользователей. Агенты второй группы могут быть консольной утилитой или иметь графический интерфейс или обрабатывать запросы от пользователей через подписку на телеграмм. Разница в описанных двух крупных группах со стороны LLM. В случае запросов от пользователей идут подзапросы от user, во втором случае их нет, только системный промпт и данные от инструментов/навыков - tools/skills. Думаю на следующей неделе расширю эту классификацию и дополню графическими схемами для понимания.
👍2