Sber AI

AI, который создаёт архитектуры, которые создают

будущее

Учёные из Шанхайского университета разработали ASI-ARCH — экспериментальную систему для исследований в области AI. Она уже открыла 106 новых SOTA-архитектур. В отличие от AutoML и NAS, которые требуют постоянного вмешательства человека — ввода различных параметров, корректировки гипотез, анализа результатов — ASI-ARCH работает полностью автономно.

Процесс поиска архитектур включал несколько этапов:

➡️ генерация гипотез — обучение моделей (20 млн параметров) на 1 млрд токенов и отбор тех, что по бенчмаркам (точность и производительность) превзошли базовую гибридную архитектуру DeltaNet для обработки последовательностей
➡️ верификация — масштабирование отобранных моделей до 340 млн параметров, удаление слишком сложных архитектур. Итог — 106 новых SOTA-архитектур
➡️ финальный этап — обучение пяти лучших моделей на 15 млрд токенов и сравнение с флагманами

Одна из лучших архитектур, найденных ASI-ARCH, набрала в тестах 48,51 балла, обойдя лидеров по работе с длинными последовательностями — Mamba2 (47,84) и Gated DeltaNet (47,32).

Где система находит идеи?
Она улучшает проверенные методы вроде гейтинга и свёртки. Это напоминает подход учёных, которые совершенствуют уже существующие теории.

51,7% идей взяты из научной литературы
38,2% — из анализа прошлых экспериментов
10,1% — оригинальные идеи

ASI-ARCH доказала, что AI может не только копировать, но и самостоятельно развивать существующие решения, открывая новые архитектуры.

❤️ — сверхинтеллект всё ближе
🤔 — это лишь прокаченный инструмент

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🤔8👍2😁1

2.25K views10:23

Sber AI

Исследователи Сбера разработали новый метод предобучения AI-моделей, который помогает нейросетям повышать точность распознавания речи на русском языке 🚀

Научная работа GigaAM: Efficient Self-Supervised Learner for Speech Recognition была представлена на международной конференции Interspeech 2025.

Метод HuBERT-CTC уже используется для обучения семейства акустических моделей GigaAM:

🔘 Устраняет зависимость от дефицитных размеченных данных, используя self-supervised обучение на большом объёме неразмеченного аудио. Это обеспечивает масштабируемость для разных языков и задач.

🔘 Динамическое маскирование self-attention позволяет одной модели работать в онлайн- и офлайн-режимах без дополнительного переобучения.

⚡️ Модель GigaAM, обученная Сбером с помощью метода HuBERT-CTC, показала лучшее качество распознавания речи по метрике WER (Word Error Rate) среди открытых моделей на русском языке и на 50% обошла Whisper-large-v3 от OpenAI. Решение может стать основой для следующего поколения голосовых интерфейсов: от AI-помощников до контакт-центров

GigaAM уже в открытом доступе для всех желающих на GitVerse и GitHub

💻

❤️‍🔥 — за работу!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤‍🔥7👍4❤3👏1

288 views08:13

About

Blog

Apps

Platform