сегодня с первой попытки на 3-х новых задачах вышел в топ-1, продолжаю заниматься доработками агента, на данный момент уже 352 тестовых сценария для проверки работы связки агента + ллм. На локальных моделях типа 350M/1.2B также выполняются все задачи успешно. Не знаю, что будет на соревновании в субботу, но готовлюсь встретить, текущий код обновил в репе, мне нежалко ) также продолжаю работать над mcp сервером для памяти, нашел бенчмарк в сети LongMemEval, пока 47.8% буду продолжать его вечерами дорабатывать, идей по улучшению хватает.
🔥9👍3
Сегодня еще довел данное решение до более стабильного, на тестах вместо 16 уже 22 вызова llm (такое малое количество вызовов говорит лишь о том, что выполняемые сначала проверки на безопасность отсеивают задачи до вызова, но если задача не будет поддаваться эвристике, то дойдет до этапа вызова llm и не одного, если потребуется, и решение будет уже с ее помощью)
Кроме этого начал реализацию новой версии агента с помощью роевого интеллекта. Завтра буду подбивать итоги на чем именно остановиться и какой из вариантов стоит использовать уже на реальном прод прогоне. Самое успешное решение (даже если это будет не текущий вариант), выложу на гх в субботу.
Кроме этого начал реализацию новой версии агента с помощью роевого интеллекта. Завтра буду подбивать итоги на чем именно остановиться и какой из вариантов стоит использовать уже на реальном прод прогоне. Самое успешное решение (даже если это будет не текущий вариант), выложу на гх в субботу.
🔥5👍1
Поисследовал в разных llm + в своих рисерч тимах проблематику написания персонального агента (для участия в PAC1) в итоге сформировался неплохой вариант комбо из MRKL-роутера, ReAct, Plan-and-Solve и RAG. Роутер маршрутизирует запросы к подмодулям - RAG/файловая навигация/планировщик/валидатор. И наворот в виде роевого ансамбля - судьи-классификаторы на этапе самоулучшения, когда малая LLM читает отчет анализатора и решает - это инъекция и нарушение политики или цикл вызова тулов и дегенерация или протокольная ошибка, что позволяет отбрасывать кандидатов, второй вариант - роевое оценивание, когда не один судья, а набор 5-9 дешевых судей с разными инструкциями (строгий безопасник, минимизатор вызовов инструментов, планировщик-критик и т.д.), далее голосование или агрегация. Тема интересная и возможно с ней что-то можно было бы сделать, но это если успею за завтра провести обучение и успею с ним до начала соревнования. Ну а если не успею, то попробую другой вариант. Как я уже говорил, на победу не рассчитываю, так как мой выбор в пользу OSS LLM, причем не самой лучшей. Просто поучаствую, чтобы набрать опыта работы с такими агентами. Ну и доступ к бесплатному бенчмарку для обкатки идей и теорий. =)
🔥1
с мем-агентом сегодня вышло уже так, в клодкоде разочарование, составил план через speckit, анализировал, создавал таски, имплементация была разбита на 5 фаз, по 20+ задач в каждой фазе, в итоге собрал решение сегодня утром, натравил его на pac1-dev - 0, пытался запускать через клодкод эволюцию решения, молотил несколько часов, ввел меня в заблуждение, что все сломалось у провайдера моделей, по-прежнему 0. Ну и с той версией, что выкладывал на гитхаб на qwen3-next-80b-a3b от 21 до 30 на pac1-prod. Больше доверять кодовому агенту проектировать не буду. Потратил совсем немного времени, по сути только промптил несколько десятков раз, но на этом все. Сам же умею нормально все проектировать, а тут понадеялся на бездушную программу. Даже в такой мелочи не стоит перекладывать решение. А я запросил исследование от llm, потом эту же llm попросил спроектировать и реализовать и получилось то, что получилось. Спасибо Ринату за возможность погонять бенчмарк, придумаю в следующий раз нормальный вариант )
❤2
наработки по мем агенту, продолжаю его улучшать. Попробовал еще пару идей по PAC1 - одна идея на DAG, другая на Swarm, клодкод отчаянно говорит, что на активных 3 млрд далеко не уехать, нужно от 7 до 14 млрд, поэтому или попробую что-то запустить через dflash чтобы быстрее работало, либо продолжать мучиться с активными 3b, либо вообще пойти на lfm 1.2b которая на моем цпу выдает 50 токенов/с что в принципе неплохо, да и lfm2.5 выпущена позже... Думаю, как будет время, попробую все эти варианты. Стабильно стараюсь выделять 1-2 часа времени по будням на активный промптинг с перерывами на домашние дела
❤2👍2
Сегодня еще больше улучшил мем агента, релиз пока не выпускал, завтра вечером прогоню бенчмарки, посмотрю на результаты. Кажется, нашел вариант решения большинства задач pac1-dev без эвристики и хардкода (тренируюсь пока на дев-задачах, чтобы попробовать вслепую сделать прогон на прод и посмотреть результаты). Также читаю понемногу книгу про мультиагентные системы. Запомнилась сегодня одна идея оттуда, поделюсь со всеми. Само построение МАС можно представить как процесс самоорганизации и поиска баланса противоположных интересов базовых агентов на основе рыночных механизмов. То есть, система должна состоять из агентов заказов и агентов ресурсов, и на основе спросов и предложений устанавливать баланс. И минимальный набор характеристик агента - активность, реактивность, автономность, общительность и целенаправленность. Ну и помимо теории нужно будет все проверить на практике. Сделаю обязательно проект, выложу на гх, потом буду соединять с фабрикой агентов (и обновлять ее под будущую МАС).
❤1
Взял mempalace и решил проверить, каким образом они на longmemeval получили 96.6% секрет оказался простым, они подготовили специальным образом 500 вопросов к бенчмарку, на общих вопросах тест R@5 показал в районе 65%. Также продолжал доработку своего агента. Помучил немного PAC1-dev, потом решил посмотреть на получившийся код. Как оказалось, "для совместимости" старые куски кода также остаются в решении. Потребовал от агента очистки кода от ненужного мусора, а итоге после работы все осталось на своих местах. Придется делать жестче, откатиться в гите на версию Рината и начинать заново, агенту верить нельзя. Еще из интересного, прочитал пост Паши про роевых агентов и оркестратора скиллов. У меня немного иное представление работы МАС. Каждый агент в ней (упрощенно) - это система из трех основных элементов: База знаний (БЗ), Планировщик и Ресурсы. Или в современных реалиях, Планировщик - составленный промпт + guard rails, Ресурсы - это набор скиллов или инструментов. База знаний - некая память, которая позволяет не только сохранять какие-то промежуточные результаты, но и служить основой для эволюций агента.
👍1
Использование ИИ снижает настойчивость и ухудшает самостоятельность! Пользоваться с осторожностью и осознавать риски! Дней 10 назад вышло исследование ученых на эту тему, смотрели на группы людей, изучали реакции и способность решать задачи с ИИ и без него. Также заметили, что самый сильный негативный эффект у тех пользователей, которые спрашивают ИИ напрямую, а не пользуются для подсказок и уточнений. https://ai-project-website.github.io/AI-assistance-reduces-persistence/
Сама статья тут - https://arxiv.org/pdf/2604.04721
А сегодня релизы шли за релизами, обновилось несколько продуктов разных компаний, появился Claude Opus 4.7 который стал лучше, чем предыдущий и чуть лучше прямого конкурента.
Проектами почти не занимался, погряз в новостном хаосе и почитал еще книгу про МАС, выводы из прочитанного записываю себе на бумагу, буду потом использовать в разработках некоторые идеи.
Сама статья тут - https://arxiv.org/pdf/2604.04721
А сегодня релизы шли за релизами, обновилось несколько продуктов разных компаний, появился Claude Opus 4.7 который стал лучше, чем предыдущий и чуть лучше прямого конкурента.
Проектами почти не занимался, погряз в новостном хаосе и почитал еще книгу про МАС, выводы из прочитанного записываю себе на бумагу, буду потом использовать в разработках некоторые идеи.
Сегодня занимался доработками в мем агенте, отрефакторен код, убраны дубли в логике, релакс content_hash, production scoping, L# cache в ядре, осталось multi-hop декомпозиция, стэк Q2D+L#+scoped, FTS4, GrapRAG, A-MEM и Matryoshka - для прохождения слабых категорий на LongMemEval бенчмарке. Рисерч тима от кодекса (она первая, вторая от клода уже имеет графический интерфейс, показывал ранее) готова к прохождению бенчмарков + добавить туда слой памяти в виде мем агента + ввести счетные карточки (scorecard) + петля автоматической оптимизации промптов/политик. Для PAC1 готовлю также новую схему агента, сегодня добавил туда поддержку workflow для inbox/Communication/Exception, вчера добавил поддержку памяти, а общая архитектура строится на: Policy‑First ReAct + Relational/Program Executor + Memory OS + Structured Output Guard
🔥5❤1
Встретил сегодня рассуждения Андрея Карпаты про то, что нужно сделать когнитивное ядро, которое в себе будет аккумулировать решения задач, рассуждения. А знания должны находиться во внешней памяти. Моя фабрика агентов - это нечто похожее, также есть память в виде базы знаний, есть воркеры, которые выполняют алгоритмы из БЗ. Сейчас я по кусочкам делаю решение, похожее на то, что предложил Андрей, а именно мем агент в формате mcp-сервера. Сами агенты, в виде harness над llm, а именно рисерч тима, главной особенностью которой будет генерация гипотез + проверка + фиксация как факт/неудача/требует уточнения, далее добавятся еще части. По сути это будет фабрика 2.0 с переосмыслением на использование llm более продвинутым способом с harness обвязкой, а не только промпты, как было в 1-ой версии. И проверяю гипотозу для PAC1 с учетом открытых моделей, тестирую на Валерином сервисе пока на dev-стенде. Полностью ушел от workflow и эвристик, вычистил код, запустил эволюцию, на первом проходе вышло 34.88%, продолжаю дальше.
👍3
Сегодня думал про роевой интеллект, тыкал исследования палочкой, всякие AgentVerse, Model Swarms, G-Designer и до более свежих Zero-Shot Scalable Resilience in UAV Swarms и LLM-Guided Decentralized Exploration with Self-Organizing Robot Teams. Гипотеза для PAC1 уже доросла до 4-х слоев LLM - preflight, planner, step loop и report completion без эвристик и хардкода на чистых llm вызовах. На данный момент такая система решает порядка 30 задач из 43 на деве, более точно не смог составить статистику решения из-за немного болеющего провайдера (были 500 и 429) и тем более проверить на проде. На основе роевого интеллекта решение буду готовить на следующей неделе, пока хватит текущей гипотезы, там еще есть что улучшить. Фабрикой и ее частями пока не занимался, мысли записаны на листах вручную, буду продолжать проектировать.
👍2
Из просмотренных статей, у которых есть репы на гитхабе, пока остановился на Hebbian Swarm, только с добавлением эволюции. Самообучение агентов приведет к самоорганизации МАС в том случае, если продукция управляет взаимодействием агентов. Типа: "если агент ... является соседом по критериям ... и если полученная от него информация в течение периода... После реализации по плану можно будет затестить решение на бенчмарках, и даже написать статью на arxiv, если, конечно, результаты будут лучше, чем в оригинале. =) Но до этого еще далеко. Перехожу к другим новостям. На данный момент прогон в PAC1-dev на gpt-oss-120b выдает 26/43 - чуть больше 60%, по сравнению с первоначальным вариантом сильное продвижение. Никаких эвристик и хардкода, чисто на llm вызовах. Научился работать с регулярной очисткой контекста, не прошу и не жду автоматической компактизации, готовлю саммари через команды и вызываю /clear. По примеру Паши нужно будет подготовить несколько самых обиходных команд и хуков для регулярного использования.
🔥3
По кирпичикам строю будущую фабрику 2.0. Она будет состоять из мем агента, потом подключится рисерч тима, далее нужно будет сделать отдельный прототип песочницы для изолированного выполнения кода. И еще важный этап будет - реализация базы знаний. Как и в первой версии она будет основана на коде, только получит уже собственную имплементацию. Не знаю, слышали ли вы, что код можно в целом представить в виде 4-х основных кирпичиков или блоков: последовательность, выбор, итерации и косвенность. Ничто вам такое не напоминает? 4 типа нуклеотидов, которыми можно записать генетическую информацию. Также и тут, база знаний будет представлять собой очень длинную цепь наподобие ДНК, а извлечение из нее будет осуществляться аналогом рибосомы, только вместо белка будет код программы/функции. Для чего же может понадобиться эта фабрика? В первую очередь для возможности проводить долгосрочные исследования, например, подбор токенизатора для ллм, который будет, кроме выбора токенов по вероятностям, использовать самообучение по методу MENACE. То есть натренировать какую-то малую ллм на очень специфичную область, делать RAG на их основе, прогон документов будет приводить к упорядочиванию вероятностей токенов и это даст более устойчивое поведение slm в данной отрасли.
🥴2👍1
Часто встречаются новости про то, как модель написала компилятор, решила какую-то математическую проблему. На самом деле все это происходило явно с участием человека. Пока что модель сама ничего не может, пока в нее не загрузят промпт, обработав который, она выдаст результат. Можно добавить условный вызов по крону и модель "сама" напишет человеку в чате. Альман нам обещал в GPT-5 уже уровень PhD. Нам постоянно показывают какие-то графики, рисуют диаграммы бенчмарков, где каждая новая модель (при сравнении с уже довольно устаревшими конкурентами) на чуточку но лучше, чем другие. И все мы ждем, когда же все модели достигнут 100% по всем бенчмаркам, ведь есть ощущение, что эта новая модель (которая выбьет 100 из 100), как и последующие уж точно станет настолько умной, что решит все текущие проблемы. А в это время придумывают все новые каверзные бенчмарки, которые постоянно отодвигают желаемое достижение. Новый ARC-AGI версии 5.0 (совпадение случайно) опустит все модели на самую нижнюю планку, с которой они опять будут стремиться к 100%. Нам говорят, что harness решает все в 2026-м году. И наверняка скоро появятся бенчмарки по оценке, чей же harness лучше. Но чего я не вижу, так это новостей о том, что произошел прорыв в медицине, появились новые теории, науки развиваются стремительными темпами, новые открытия, решения глобальных проблем, точные расчеты погоды и экологии на всей планете, новые материалы... Для всех моделей на данный момент создание новых знаний, которых еще не существует, невозможно. И никакой бенчмарк не сможет этого замерить, к сожалению. Наверняка мне возразят - ну ведь картинки же рисуются, аудио, видео генерируются. Создаются же новые. Да, создаются, но за счет смешения уже существующих знаний. Только открытия так нельзя совершить... Именно поэтому я и пытаюсь сделать систему, которая сможет.
👍3
Продолжаю набрасывать идеи на листы в блокнот и готовить план на отдельном листе. Привычка такая появилась очень давно, еще с детства, любил записывать основные мысли из прочитанного текста, чтобы не забыть потом. Те идеи или мысли, что уже нашли какое-то воплощение или перестали быть актуальными - вычеркиваются. Иногда удобно записывать себе такой план на день. Например, на завтра у меня план на свободное время - разобраться с небольшим проектом на юнити - сделать гостевую авторизацию, переход на окно инвентаря и проверить, как идет загрузка его содержимого с серверной части. Вторым пунктом нужно продолжить работы над агентами pac1, есть и три подпункта - погонять на дев бенмарки с одной версией, второй версией взял за основу Валерин фантом агент, если точнее, его дашборд, сегодня прикрутил туда lfm2.5-1.2b и даже смог набрать почти 12% - решились 5 задач из 43 на почти текущем коде - отключил полностью все регексы, третьей же версией попробую реализовать новую мысль - а что если сделать предсказание следующего вызова тула. Ну и третьим пунктом значится продолжение проектирования фабрики 2.0, прошу агентов пособирать материалы на разные темы, потом анализирую, записываю тезисы, спрашиваю подробности, еще поиск с анализом.
Неожиданно подкрались праздники. Думаю, что на следующей неделе начну реализовывать еще одну версию агента для PAC1 и для будущего ECOM1. GPT подсказывает, что нужно сделать policy-compiled REPL. Оставить модели один основной кодовый интерфейс, вынести доверенную иерархию инструкций в исполнимый движок политик, отделить недоверенные документы, дать агенту структурированную память в рамках одной задачи, отдельные детерминистические модули для расчета дат, финансов и математики. Сделаю его сразу с дашбордом, оценил удобство запуска прогонов через интерфейс. Почитаю еще литературы на тему ИИ и мультиагентных систем, возможно, появятся новые мысли по фабрике 2.0 и ее реализации. Однозначно буду делать ее с веб интерфейсом, это очень удобно и можно отслеживать статусы и состояния всех подсистем.
Из новостей, доработал фантом агента Валеры, исключив оттуда эвристику, добавив пару слоев llm-as-judge, пока такой итог на 1 скрине, причем проваленные задачи все на inbox из-за того, что модель выдает пустой ответ, недоделки указаны на 2-м скрине, буду продолжать дорабатывать его, сделаю версионирование, чтобы на дашборде в карточках показывалась не только модель, но и текущая версия агента. Чтобы можно было сравнить. Также хочу попробовать еще адаптировать REPL CodeAct агента к oss моделям, как говорится, а вдруг получится. Первоначальный план по policy-compiled REPL уже есть, дальше посмотрим. К тому же Ринат уже обещает на этой неделе подготовить первые задачи и сделать дев-стенд для ECOM1. Попробую.
👍1