Sber AI
6.5K subscribers
2.16K photos
578 videos
1 file
1.95K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
AlphaEvolve ускоряет обучение AI и решает математические проблемы 5️⃣

В мае DeepMind представила AlphaEvolve — AI-агента на базе больших языковых моделей Gemini Flash и Gemini Pro. Он пишет и совершенствует алгоритмы для создания программ, решения сложных математических задач и оптимизации работы оборудования Google. Его решения экономят вычислительные ресурсы и ускоряют обучение AI-моделей.

Как работает AlphaEvolve

🔘Генерирует код с помощью LLM
🔘LLM управляет эволюционным процессом: предлагает «мутации» — модификации блоков кода
🔘Варианты кода проходят «естественный отбор» — их эффективность автоматически оценивается при выполнении задач разной сложности


AlphaEvolve может написать сотни строк кода на любом языке и «запараллелить» процесс оценивания, что сокращает время на поиск решений. Для этого он распределяет вычисления по кластерам. Возможности FunSearch, предыдущей «эволюционной» разработки DeepMind, на порядок ниже.

Что уже сделал AlphaEvolve

🔘 Сократил время обучения Gemini на 1%: разделил сложную операцию умножения матриц на подзадачи

🔘 Нашёл новую нижнюю границу числа «поцелуев» в 11 измерениях. Это геометрическая задача о том, сколько одинаковых сфер можно разместить вокруг такой же сферы так, чтобы они касались её, но не пересекались друг с другом

🔘 Усовершенствовал алгоритм умножения матриц Фолькера Штрассена, который считался лучшим

🔘 Оптимизировал работу Borg — системы, которая управляет вычислениями в центрах обработки данных Google. Это помогло компании сэкономить 0,7% вычислительных ресурсов

🔘 Предложил переписать Verilog — язык для моделирования электронных систем. В Google учли эту идею в разработке тензорных процессоров — вычислительных чипов для AI-моделей

💡AlphaEvolve испытали на более чем 50 открытых проблемах математики. Для 20% задач агент уточнил существующие решения. А в 75% случаев — пришёл к самым точным решениям из известных человечеству

➡️ По этой ссылке можно прочитать статью, а на GitHub — ознакомиться с математическими результатами.

Как вам возможности AlphaEvolve?
❤️ — это прорыв
👍 — звучит интересно
🤔 — посмотрим, как AI справится с задачами тысячелетия
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥3💔1
Нейросети стали умнее 🔄

Теперь в GigaChat вы можете генерировать высококачественные изображения с обновлённой моделью Kandinsky 4.1 Image, а затем редактировать их в пару кликов с помощью AI-редактора Malvina.

Новая версия Kandinsky работает на архитектуре DiT — больше деталей и выше скорость генерации. Модель обучена на датасете изображений, отобранных вручную.

Что в обновлении:
🔘 реалистичнее передаёт лица и анатомию людей
🔘 качественнее рисует животных, текстуры, сложные объекты
🔘 работает в разных стилях — от Айвазовского до Миядзаки
🔘 лучше понимает российский культурный код — гжель, матрёшки, богатыри
🔘 точнее следует сложным запросам с описанием множества деталей


AI-редактор Malvina поможет доработать результат прямо внутри GigaChat: изменить фон, цвет или добавить новые объекты. Подробнее — в посте.

➡️ Попробуйте дуэт Kandinsky + Malvina
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍8🔥4👏4
Отличите ли вы творения классиков Золотого и Серебряного веков от опусов нейросети? В День русского языка мы решили проверить, сможет ли AI написать стихи на великом и могучем наравне с реальными поэтами. Внимание на карточки!

Сколько раз вы попали в точку?

❤️ — 5-7
👍 — 3-5
🤔 — 1
-2
19👍5🔥3🤔2
AI-агент GigaCode избавит разработчиков от рутины 🔝

На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.

Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.

🔘 Что умеет агент:

🔘автоматически анализирует изменения в коде
🔘ищет ошибки и уязвимости
🔘даёт советы по оптимизации
🔘объясняет правки в режиме диалога


Инструмент бесплатный для всех пользователей GitVerse.

➡️ Попробуйте новые возможности GigaCode
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи научили нейросети точно редактировать геометрию 3D-моделей 🤖

Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.

Как работает метод A3D?

💚 Допустим, пользователь хочет сгенерировать бегущих человека и робота с одинаковым положением конечностей. Скорее всего, нейросеть не сможет в точности повторить позу, поэтому сгенерированный робот будет бежать на четвереньках, а человек — на двух ногах. Чтобы добиться одинаковых поз, нужно обучить нейросеть правильно создавать переходные формы — так, чтобы один объект плавно превращался в другой.

Каждой такой форме ставится вектор этого класса. Например, если робот — это 0, а человек — 1, то их гибриды — это промежуточные значения между 0 и 1. Они вычисляются с помощью интерполяции. Затем модель обучается генерировать не только крайние точки, но и саму траекторию перехода из одного объекта в другой. Это позволяет получить объекты с одинаковым расположением частей.


Как обучают такие модели?

💚 В основе обучения лежит метод, который называется Score Distillation Sampling. Модель-ученик генерирует объект. А «учитель» оценивает, насколько результат соответствует текстовому промпту, и предлагает правки.
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:

1. Создаём рендер объекта c помощью 3D-генератора
2. «Зашумляем» полученное изображение
3. 2D-диффузионная модель пытается угадать по промпту, какой шум мы добавили, и «расшумляет» картинку
4. Считаем диффузионный лосс: сравниваем шум, который мы изначально добавили, и шум, предсказанный 2D-моделью


Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.

Чем полезен A3D?

💚 Метод позволяет:
🔘Редактировать загруженный пользователем готовый меш — виртуальный каркас объекта
🔘Менять части объектов в парной генерации. Например, создать одинаково сидящих обезьян, одна из которых — в шапке
🔘Комбинировать объекты — сделать гибрид бобра и кенгуру

Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылкепрочитать статью полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏32
Учёные создали «Периодическую AI-таблицу» 🤖

Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.

В чём суть

🔘 В её основе — фреймворк I-Con, описывающий через единое уравнение, как разные алгоритмы выявляют взаимосвязи между данными
🔘 Он объединяет более 20 методов: от PCA и t-SNE до современных подходов Contrastive Learning
🔘 Таблица позволяет классифицировать и сопоставлять подходы к обучению


💡 Система облегчает подбор алгоритмов под конкретные задачи. Она также указывает на возможные архитектуры, подобно тому, как таблица Менделеева помогала предсказывать существование ещё не открытых элементов.

🔥 — и вам приснятся ещё не открытые алгоритмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AI, у которого русский — родной

Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.

🤖 GigaAM — это базовая модель. У неё есть версии, точно настроенные под конкретные задачи: GigaAM-CTC и GigaAM-RNNT распознают речь, а GigaAM-Emo определяет эмоции.

Как обучали GigaAM

В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.

💳 В предобучении GigaAM разработчики использовали новый подход HuBERT-CTC, про который подробно рассказали в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.

💳 Для дообучения GigaAM-CTC использовались корпуса аудиозаписей Golos, Sova, CommonVoice и LibriSpeech. Они состоят из аудиокниг и записей живой речи.

💳 GigaAM-Emo дообучали на наборе Dusha — фрагментах подкастов и записях речи актёров озвучки продолжительностью до 20 секунд. Каждой записи приписали одно из четырёх состояний: злость, грусть, нейтральную эмоцию или счастье.

Что умеют эти модели

🔘 GigaAM-CTC на 50% точнее Whisper-Large-v3

🔘 GigaAM-Emo правильно определяет эмоции в 90% случаев, если запись хорошего качества. С шумными записями точность ниже, но показатели всё равно лучше, чем у аналогичных моделей


GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.

➡️ Узнать подробности можно на GitHub.
➡️ Улучшенную версию GigaAM можно попробовать в Telegram-боте SaluteSpeech. А если вы развиваете свой бизнес-проект, рекомендуем ознакомиться с SaluteSpeech API.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥3👏3