Neural Networks | Нейронные сети
11.6K subscribers
734 photos
161 videos
170 files
9.4K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
Forwarded from Machinelearning
📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур.

ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.

Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.

🟡Весь процесс разделен на 2 этапа: поиск гипотез и их проверка.

На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.

Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.

Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.

Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.

Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.

🟡 Анализ предпочтений системы показал интересные закономерности.

ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.

Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.

🟡Результаты.

Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.

Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).

И так практически во всем, улучшения наблюдаются по всему спектру задач.

🟡И самое интересное — откуда система черпает идеи? Источников всего 3:

🟢Cognition - знания, извлеченные из научной литературы;
🟢Analysis - выводы, сделанные на основе собственных прошлых экспериментов;
🟢Originality - абсолютно новые идеи.

Для всех 1773 сгенерированных архитектур распределение источников было таким:

🟠51.7% идей приходило из человеческой литературы;
🟠38.2% - из собственного анализа;
🟠10.1% были оригинальными.

Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.

Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 MixGRPO от Tencent — теперь в открытом доступе! Новый подход к обучению моделей по человеческим предпочтениям

🔧 Что нового и крутого:

1⃣ Первый фреймворк с гибридным семплированием ODE+SDE — меньше шагов, меньше вычислений
2⃣ До 71% быстрее обучения (вариант MixGRPO‑Flash), при этом точнее и эффективнее, чем DanceGRPO
3⃣ Поддержка ускоренных ODE-решателей — ещё выше скорость без потери качества
4⃣ Работает как с диффузионными, так и с flow-based моделями — требует всего несколько итераций

🔗 Проект: https://tulvgengenr.github.io/MixGRPO-Project-Page/
📦 Код и модели: https://github.com/Tencent-Hunyuan/MixGRPO
📄 Статья: https://arxiv.org/abs/2507.21802

@neural
🚨 ANTHROPIC ОТКЛЮЧИЛА OPENAI ОТ ДОСТУПА К CLAUDE

> Anthropic отозвала доступ OpenAI к API своих моделей Claude
> Заявление: “Технические сотрудники OpenAI использовали наши инструменты для программирования перед запуском GPT-5”
> “К сожалению, это прямое нарушение условий использования”

🔥 Кажется, война ИИ-компаний вышла на новый уровень.

@data_analysis_ml

#GPT5 #openai #ANTHROPIC
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Похоже, что GPT‑5 выйдет четверг
Просто парад релизов)
This media is not supported in your browser
VIEW IN TELEGRAM
⚠️ Мы в матрице - официально

Идеальная рекурсия достигнута с Google Genie 3.

🎬 ИИ, который создаёт миры… где сам себя воссоздаёт.

👉 Посмотри это видео до конца — ты офигеешь.