Мнение миллениала
625 subscribers
947 photos
300 videos
5 files
810 links
Творчески переосмыслим марксизм в эпоху автоматизации!
Download Telegram
Forwarded from Kali Novskaya
🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸
#nlp #nlp_papers

Что будет, если дать агентам полную свободу модифицировать самих себя?
Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем.
Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу

🌸TL;DR
HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода.
При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective:
— агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу.

Улучшения возможны в обеих группах доменов:
— verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis)
— unverifiable rewards: рецензирование статей (Apres)

🌸Пайплайн

Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд.
Модификации образуют граф версий, который можно контролировать в git.

В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи.
Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно.

Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o

🌸Почему это работает: Абляционные исследования

Как должна выглядеть оптимальная система агента, чтобы поощрять открыты  поиск новых модификаций?
Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах.
Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению.
Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.  
Итак, что мы сравниваем:
— HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде
— HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть
— HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты
— Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче. 

🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других.

🌸Учимся самоулучшаться

Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50)
🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63).
🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах.


🟣Arxiv https://arxiv.org/abs/2603.19461
🟣Github https://github.com/facebookresearch/HyperAgents
🟣HF papers: https://huggingface.co/papers/2603.19461
🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Трагедия в трех актах:
4:18
Мессенджер KakaoTalk взлетает в топы Appstore и Google Play на фоне блокировок всего и вся
4:19
Разработчики KakaoTalk видят хайп и обещают адаптировать сервис под местных пользователей, в том числе улучшить поддержку русского языка.
4:20
СМИ начали выкладывать статьи, что KakaoTalk на самом деле небезопасен
😁8
☀️ИИ-боты пошли в политику.

В Nature наткнулась на интересное исследование.

Людям из США, Канады и Польши давали переписываться с чат‑ботом, который топит за конкретного кандидата или за/против закона (например, про легализацию психоделиков).

📍Итог: уже один короткий диалог с ИИ заметно сдвигал симпатии людей в сторону того кандидата или позиции, за которых агитировал бот.

📍В среднем этот эффект был сильнее, чем от обычной политической рекламы.

📍Особенно сильно меняли мнение тех, кто изначально был против этого кандидата или идеи.

📍Важно: ИИ-боты оперировали только фактами, никаких эмоций.

То есть ИИ‑боты уже сейчас могут реально влиять на выборы, если их массово запустить в переписку с избирателями.

Это хорошо или, что называется, "допрыгались"?
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤷‍♂1🤡1
Forwarded from Data Secrets
Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world models

Очень многие точно слышали про JEPA. Расшифровывается JEPA как Joint Embedding Predictive Architecture – Self-Supervised архитектура, предназначенная для понимания внешнего физического мира.

Идея там красивая: вместо предсказания следующего токена или генерации пикселей JEPA пытается предсказывать смысл наблюдаемого фрагмента на основе контекста (по факту это предсказание эмбеддингов).

Лекун считает, что это идеалогическая альтернатива привычному ИИ, потому что предсказание пикселей или токенов – это лишь имитация понимания структуры мира, а тут модель действительно учится понимать физику и логические связи.

Все это здорово, но основная проблема в том, что JEPA очень плохо обучается: лосс почти всегда схлопывается в тривиальное решение и реальной world model не получается.

Но кажется, теперь это препятствие разрушено. Лекун с соавторами выпустили статью, в которой представлена первая end-to-end JEPA, которая обучается из сырых изображений без эвристик, сложных лоссов и прочих танцев с бубном.

Модель красиво называется LeWorldModel (LeWM), и в ней всего 15М параметров. От коллапсов при обучении она защищается очень простым способом: кроме лосса на предсказание следующего latent-state, добавляется регуляризатор, который заставляет латенты быть похожими на изотропное гауссово распределение. Это и есть главный технический ход статьи.

На практике это значит, что рецепт, который раньше был капризным и дорогим в настройке, упростился настолько, что world models наконец-то можно скейлить во что-то рабочее.

Эксперименты, кстати, показывают, что LeWM действительно учит не ерунду, а нечто похожее на физическую структуру мира. Так что идея, кажется, работает.

www.alphaxiv.org/abs/2603.19312v1
🔥2🤔1
Forwarded from Data Secrets
Отрывок из новой статьи Теренса Тао ⬆️

А вот отрывок из сопутствующего блога:

Один из аргументов для теоремы 1.4 был предложен мне ChatGPT, так как я ранее не знал о теореме двух констант Неванлинны. <> Затем ChatGPT доказал первое из двух утверждений, лежащих в основе теоремы. Также для нахождения доказательства теоремы 1.4 через лемму 1.1 использовались AlphaEvolve и ChatGPT Pro.


Такая вот новая реальность: ChatGPT доказывает утверждения для лучшего математика в мире. Фактически, это чуть не соавторство.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ЕЖ
Белый дом официально объявил о запуске сайта OnlyFarms. На OnlyFarms фермеры могут узнать, сколько денег они сэкономили благодаря аграрной политике Трампа.
@ejdailyru
СТАТИСТИКА УНИКАЛЬНОСТИ: ПОЧЕМУ СЕТИ НУЖНЫ ОБЫЧНЫЕ СИДЫ

Мы снова возвращаемся к концептуализации человека как вычислительного «Сида» (Seed) в глобальной архитектуре человечества. В процедурной генерации Сид — это начальное, уникальное стартовое значение, из которого алгоритм разворачивает целую математическую вселенную. Человек в момент рождения инициализируется в социальной матрице как абсолютно неповторимый биологический и исторический Сид. Его уникальность заключается не в метафизической душе, а в строгой математической невоспроизводимости стартовых условий: генетической конфигурации, географической точке спавна, культурном капитале и бесконечной матрице случайных физических микрособытий. Ни одна искусственная нейросеть сегодня не способна сгенерировать такой объем уникальных реакций, поскольку машинная модель обучается на агрегированных, усредненных паттернах. Человеческий мозг, напротив, ежесекундно процессит сырой, непредсказуемый хаос материальной действительности, формируя абсолютно неповторимую траекторию индивидуальной судьбы, которую невозможно смоделировать заранее.

Однако суровая диалектика этой системы заключается в том, что абсолютная микроуровневая уникальность каждого отдельного Сида жестко и неумолимо подчинена макроэкономической статистике. Индивидуальный путь непредсказуем, но математическое распределение результатов работы миллионов таких узлов вычисляется с предельной точностью. Если проанализировать генерацию этих Сидов через призму исторической продуктивности, возникает парадокс: подавляющее большинство уникальных человеческих узлов демонстрируют среднюю, невыдающуюся результативность. В массе своей элементы сети не являются ни радикально прогрессивными архитекторами будущего, ни агрессивными реакционерами. Они представляют собой стабилизирующее ядро, выполняющее рутинную функцию поддержания текущего социального метаболизма.

Возникает закономерный институциональный вопрос об эффективности такой архитектуры. С точки зрения плоской оптимизации кажется, что система тратит колоссальное количество ресурсов на поддержание миллионов непродуктивных узлов. Но с позиций теории сложных систем и исторического материализма именно эта жесткая статистическая пропорция — условно, один прорывной Сид на десять обычных — является фундаментальным условием выживания и прогресса всей макросети. Один прогрессивный узел, генерирующий технологический скачок или социальную революцию, физически не способен «тащить» систему вперед в изоляции. Девять остальных узлов не являются системным балластом. Они создают необходимую плотность сети, обеспечивают бесперебойное производство базовых ресурсов, формируют инфраструктурный каркас и, главное, обеспечивают структурную инерцию.

Если бы социальная сеть состояла исключительно из радикально прогрессивных Сидов, она бы мгновенно разрушилась от внутреннего перегрева, рассинхронизации и хаоса непрерывных структурных сломов. Прогресс требует прочного материального фундамента. Уникальность каждого человека объективна, но ее подлинная системная задача — обеспечить сети достаточный объем поведенческих вариаций и мутаций алгоритма. Большинство этих уникальных вариаций закономерно уйдет на поддержание стабильности базиса, чтобы в нужный исторический момент это статистическое распределение гарантированно породило тот самый один прорывной Сид, который, жестко опираясь на консолидированный труд и инфраструктуру остальных девяти, совершит фазовый переход для всего человечества.
4