Что обсуждают робохудожники?
Anonymous Quiz
7%
Композицию моделей
30%
Image inpainting
59%
Проблему пальцев
4%
Шедевры Ренессанса
❤2🔥2🤔2
Sber AI
Что обсуждают робохудожники?
Правильный ответ: проблема пальцев 🖐
Иногда диффузионные модели «рисуют» шестипалые руки. Они работают на уровне пикселей и вероятностей, без представления об анатомии или законах физики. Не зная, сколько пальцев у человека, они генерируют наиболее вероятные паттерны пикселей, похожие на кисть.
Чтобы решить проблему, можно дообучить модели на размеченных данных, поделить процесс диффузии на этапы для постепенной детализации, добавить возможность постобработки или автоматически уточнить промпты с помощью Reasoning LLM.
Неправильные ответы
Композиция моделей — это не проблема, а метод машинного обучения. Согласно ему, несколько алгоритмов объединяют для улучшения качества прогнозов и обработки данных.
Image inpainting — это AI-технология, предназначенная для восстановления повреждённых участков изображения.
❤️ — если ответили верно
Иногда диффузионные модели «рисуют» шестипалые руки. Они работают на уровне пикселей и вероятностей, без представления об анатомии или законах физики. Не зная, сколько пальцев у человека, они генерируют наиболее вероятные паттерны пикселей, похожие на кисть.
Чтобы решить проблему, можно дообучить модели на размеченных данных, поделить процесс диффузии на этапы для постепенной детализации, добавить возможность постобработки или автоматически уточнить промпты с помощью Reasoning LLM.
Неправильные ответы
Композиция моделей — это не проблема, а метод машинного обучения. Согласно ему, несколько алгоритмов объединяют для улучшения качества прогнозов и обработки данных.
Image inpainting — это AI-технология, предназначенная для восстановления повреждённых участков изображения.
❤️ — если ответили верно
❤9😁3👍2💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Первый в мире робот-барабанщик 🔥
Гуманоидный робот G1 от Unitree исполняет рок, метал и джаз с точностью попадания в ритм 90%. Международная команда специалистов научила его этому с помощью AI-системы Robot Drummer. В её основе — многослойные перцептроны (нейросеть из трёх слоёв).
Что умеет робот
Он научился почти как человек менять палочки, играть со скрещёнными руками и корректировать силу удара в ответ на изменения темпа и динамики в песнях. Разработчики утверждают, что добились пространственной координации и 90% точности ритма.
Как модель училась барабанить
На основе MIDI-транскрипций песен разработчики составили для робота ритмические цепочки контактных событий (RCC). Они подсказывали ему, когда и по каким барабанам нужно ударить. Удары закодировали в виде векторов. Робот практиковался в виртуальной среде Isaac Gym с использованием обучения с подкреплением.
Создатели Robot Drummer планируют обучить робота импровизации и посадить его за настоящие барабаны.
Читайте статью и слушайте хиты в исполнении робота по этой ссылке.
🔥 — если ждёте, когда барабанщик соберёт робогруппу
Гуманоидный робот G1 от Unitree исполняет рок, метал и джаз с точностью попадания в ритм 90%. Международная команда специалистов научила его этому с помощью AI-системы Robot Drummer. В её основе — многослойные перцептроны (нейросеть из трёх слоёв).
Что умеет робот
Он научился почти как человек менять палочки, играть со скрещёнными руками и корректировать силу удара в ответ на изменения темпа и динамики в песнях. Разработчики утверждают, что добились пространственной координации и 90% точности ритма.
Как модель училась барабанить
На основе MIDI-транскрипций песен разработчики составили для робота ритмические цепочки контактных событий (RCC). Они подсказывали ему, когда и по каким барабанам нужно ударить. Удары закодировали в виде векторов. Робот практиковался в виртуальной среде Isaac Gym с использованием обучения с подкреплением.
Создатели Robot Drummer планируют обучить робота импровизации и посадить его за настоящие барабаны.
Читайте статью и слушайте хиты в исполнении робота по этой ссылке.
🔥 — если ждёте, когда барабанщик соберёт робогруппу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍5❤2😁2🤔2
Про умные 3D-миры и дешёвую разметку данных — в нашем дайджесте 🤖
Инструменты
🥺 AIRI и МФТИ создали 3DGraphLLM — метод для LLM при работе с 3D-пространством. Он учитывает пространственные и смысловые связи объектов внутри помещения, что позволяет нейросети точнее распознавать детали на изображениях сложных интерьеров. Модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.
🔗 Учёные СГУ выяснили: два связанных биологических нейрона меняют режим работы в зависимости от силы взаимодействия и внешнего тока. Они могут «молчать», передавать единичные импульсы или генерировать непрерывную серию сигналов. Открытие поможет в моделировании AI, нейроинтерфейсов и спайковых моделей.
📊 R&D-центр «Т-Технологий» с AIRI, ВШЭ, «Иннополисом» и Сбером создали ATGen — первый комплексный фреймворк, который использует парадигму активного обучения. Модель на каждом этапе сама выбирает нужные примеры для максимального роста точности. Это позволяет сократить расходы на сбор и разметку данных в три раза.
Модели
🌎 Google DeepMind представила Genie 3 — AI-модель, создающую 3D-миры в реальном времени. Теперь нейросеть может сохранять изображение в памяти в течение одной минуты — против 10–20 секунд в прошлой версии.
🧑💻 Anthropic выпустила Claude Opus 4.1 — обновлённую версию сервиса для агентских задач. Модель набрала 74,5% на SWE-bench Verified (производительность), стала точнее в рефакторинге и отладке кода.
📹 Tencent Hunyuan разработала Large-Vision — мультимодальную модель с 52 миллиардами активных параметров в архитектуре MoE. Она обрабатывает изображения любой чёткости, видео и 3D, поддерживает мультиязычность и подходит для AR/VR, 3D-моделирования и видеоаналитики.
👍 — хотели бы побродить по мирам Genie 3?
🔥 — больше электричества вам в нейроны
Инструменты
Модели
📹 Tencent Hunyuan разработала Large-Vision — мультимодальную модель с 52 миллиардами активных параметров в архитектуре MoE. Она обрабатывает изображения любой чёткости, видео и 3D, поддерживает мультиязычность и подходит для AR/VR, 3D-моделирования и видеоаналитики.
👍 — хотели бы побродить по мирам Genie 3?
🔥 — больше электричества вам в нейроны
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🔥2💯1
Главные события big tech night в Сбере 🔥
Ночь больших технологий всё ближе! 12 сентября крупные компании одновременно откроют двери офисов ночью и покажут, где рождаются технологии.
В карточках собрали темы топовых докладов, которые прозвучат на площадке Сбера⬆️
Также в программе много активностей:
💻 Регистрируйтесь по этой ссылке — присоединиться можно как офлайн, так и онлайн!
Ночь больших технологий всё ближе! 12 сентября крупные компании одновременно откроют двери офисов ночью и покажут, где рождаются технологии.
В карточках собрали темы топовых докладов, которые прозвучат на площадке Сбера
Также в программе много активностей:
🔘 квест, который познакомит с командами, продуктами и технологиями компании🔘 IT-кэмп, где можно погрузиться в процессы и обсудить реальные кейсы🔘 мастермайнды от ML-инженеров и продуктовых лидов🔘 вечернее шоу «Что было в Сбере?» с невыдуманными историями🔘 алгоритмическая вечеринка и шахматная мастерская
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍8👏5❤1🤔1
+170% скорости генерации без костылей 🔝
Наши специалисты предложили новый механизм внимания NABLA для диффузионных трансформеров. Он позволяет снизить вычислительную нагрузку при сохранении качества генерации видео за счёт использования поблочного внимания, которое динамически адаптируется к разрежённости в трансформерах.
Результат: ускорение генерации модели Wan 2.1-14B в 2,7 раза (оценка CLIP, оценка VBench, оценка людей).
Метод работает без написания дополнительных CUDA-ядер и полностью совместим с Flex Attention из PyTorch⚡️
➡️ Читайте статью на Hugging Face.
❤️ — Full Attention уходит, скорость остаётся
Наши специалисты предложили новый механизм внимания NABLA для диффузионных трансформеров. Он позволяет снизить вычислительную нагрузку при сохранении качества генерации видео за счёт использования поблочного внимания, которое динамически адаптируется к разрежённости в трансформерах.
1️⃣ Вместо полного вычисления маски внимания (Full Attention) NABLA использует блочно-разрежённое внимание2️⃣ Модель сжимает матрицы Query и Key, выделяя наиболее важные блоки с помощью кумулятивной функции распределения Softmax3️⃣ Важными считаются те блоки, сумма которых превышает адаптивный порог 1−thr (алгоритмический параметр)4️⃣ Вычисления выполняются только для наиболее значимых блоков
Результат: ускорение генерации модели Wan 2.1-14B в 2,7 раза (оценка CLIP, оценка VBench, оценка людей).
Метод работает без написания дополнительных CUDA-ядер и полностью совместим с Flex Attention из PyTorch
❤️ — Full Attention уходит, скорость остаётся
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍4👏3🔥1
Уже планируете осень? 3 сентября — дата, которую стоит обвести красным 🚨
GoCloud Tech 2025 — конференция, где соберутся все, кто работает с AI. Четыре трека, десятки экспертов, воркшопы, демо, мерч и afterparty. Подробности — здесь👇
GoCloud Tech 2025 — конференция, где соберутся все, кто работает с AI. Четыре трека, десятки экспертов, воркшопы, демо, мерч и afterparty. Подробности — здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4
Forwarded from Cloud.ru
AI-помощник в облаке, RAG, агенты, мультиагентные системы...
Где и когда:
Регистрируйтесь, чтобы ничего не пропустить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4
AI, который создаёт архитектуры, которые создают будущее
Учёные из Шанхайского университета разработали ASI-ARCH — экспериментальную систему для исследований в области AI. Она уже открыла 106 новых SOTA-архитектур. В отличие от AutoML и NAS, которые требуют постоянного вмешательства человека — ввода различных параметров, корректировки гипотез, анализа результатов — ASI-ARCH работает полностью автономно.
Процесс поиска архитектур включал несколько этапов:
Одна из лучших архитектур, найденных ASI-ARCH, набрала в тестах 48,51 балла, обойдя лидеров по работе с длинными последовательностями — Mamba2 (47,84) и Gated DeltaNet (47,32).
Где система находит идеи?
Она улучшает проверенные методы вроде гейтинга и свёртки. Это напоминает подход учёных, которые совершенствуют уже существующие теории.
ASI-ARCH доказала, что AI может не только копировать, но и самостоятельно развивать существующие решения, открывая новые архитектуры.
❤️ — сверхинтеллект всё ближе
🤔 — это лишь прокаченный инструмент
Учёные из Шанхайского университета разработали ASI-ARCH — экспериментальную систему для исследований в области AI. Она уже открыла 106 новых SOTA-архитектур. В отличие от AutoML и NAS, которые требуют постоянного вмешательства человека — ввода различных параметров, корректировки гипотез, анализа результатов — ASI-ARCH работает полностью автономно.
Процесс поиска архитектур включал несколько этапов:
➡️ генерация гипотез — обучение моделей (20 млн параметров) на 1 млрд токенов и отбор тех, что по бенчмаркам (точность и производительность) превзошли базовую гибридную архитектуру DeltaNet для обработки последовательностей➡️ верификация — масштабирование отобранных моделей до 340 млн параметров, удаление слишком сложных архитектур. Итог — 106 новых SOTA-архитектур➡️ финальный этап — обучение пяти лучших моделей на 15 млрд токенов и сравнение с флагманами
Одна из лучших архитектур, найденных ASI-ARCH, набрала в тестах 48,51 балла, обойдя лидеров по работе с длинными последовательностями — Mamba2 (47,84) и Gated DeltaNet (47,32).
Где система находит идеи?
Она улучшает проверенные методы вроде гейтинга и свёртки. Это напоминает подход учёных, которые совершенствуют уже существующие теории.
51,7% идей взяты из научной литературы
38,2% — из анализа прошлых экспериментов
10,1% — оригинальные идеи
ASI-ARCH доказала, что AI может не только копировать, но и самостоятельно развивать существующие решения, открывая новые архитектуры.
❤️ — сверхинтеллект всё ближе
🤔 — это лишь прокаченный инструмент
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🤔8👍2😁1
Исследователи Сбера разработали новый метод предобучения AI-моделей, который помогает нейросетям повышать точность распознавания речи на русском языке 🚀
Научная работа GigaAM: Efficient Self-Supervised Learner for Speech Recognition была представлена на международной конференции Interspeech 2025.
Метод HuBERT-CTC уже используется для обучения семейства акустических моделей GigaAM:
🔘 Устраняет зависимость от дефицитных размеченных данных, используя self-supervised обучение на большом объёме неразмеченного аудио. Это обеспечивает масштабируемость для разных языков и задач.
🔘 Динамическое маскирование self-attention позволяет одной модели работать в онлайн- и офлайн-режимах без дополнительного переобучения.
GigaAM уже в открытом доступе для всех желающих на GitVerse и GitHub💻
❤️🔥 — за работу!
Научная работа GigaAM: Efficient Self-Supervised Learner for Speech Recognition была представлена на международной конференции Interspeech 2025.
Метод HuBERT-CTC уже используется для обучения семейства акустических моделей GigaAM:
⚡️ Модель GigaAM, обученная Сбером с помощью метода HuBERT-CTC, показала лучшее качество распознавания речи по метрике WER (Word Error Rate) среди открытых моделей на русском языке и на 50% обошла Whisper-large-v3 от OpenAI. Решение может стать основой для следующего поколения голосовых интерфейсов: от AI-помощников до контакт-центров
GigaAM уже в открытом доступе для всех желающих на GitVerse и GitHub
❤️🔥 — за работу!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤🔥7👍4❤3👏1