Sber AI
6.47K subscribers
2.16K photos
578 videos
1 file
1.95K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
Нейросети стали умнее 🔄

Теперь в GigaChat вы можете генерировать высококачественные изображения с обновлённой моделью Kandinsky 4.1 Image, а затем редактировать их в пару кликов с помощью AI-редактора Malvina.

Новая версия Kandinsky работает на архитектуре DiT — больше деталей и выше скорость генерации. Модель обучена на датасете изображений, отобранных вручную.

Что в обновлении:
🔘 реалистичнее передаёт лица и анатомию людей
🔘 качественнее рисует животных, текстуры, сложные объекты
🔘 работает в разных стилях — от Айвазовского до Миядзаки
🔘 лучше понимает российский культурный код — гжель, матрёшки, богатыри
🔘 точнее следует сложным запросам с описанием множества деталей


AI-редактор Malvina поможет доработать результат прямо внутри GigaChat: изменить фон, цвет или добавить новые объекты. Подробнее — в посте.

➡️ Попробуйте дуэт Kandinsky + Malvina
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍8🔥4👏4
Отличите ли вы творения классиков Золотого и Серебряного веков от опусов нейросети? В День русского языка мы решили проверить, сможет ли AI написать стихи на великом и могучем наравне с реальными поэтами. Внимание на карточки!

Сколько раз вы попали в точку?

❤️ — 5-7
👍 — 3-5
🤔 — 1
-2
19👍5🔥3🤔2
AI-агент GigaCode избавит разработчиков от рутины 🔝

На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.

Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.

🔘 Что умеет агент:

🔘автоматически анализирует изменения в коде
🔘ищет ошибки и уязвимости
🔘даёт советы по оптимизации
🔘объясняет правки в режиме диалога


Инструмент бесплатный для всех пользователей GitVerse.

➡️ Попробуйте новые возможности GigaCode
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи научили нейросети точно редактировать геометрию 3D-моделей 🤖

Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.

Как работает метод A3D?

💚 Допустим, пользователь хочет сгенерировать бегущих человека и робота с одинаковым положением конечностей. Скорее всего, нейросеть не сможет в точности повторить позу, поэтому сгенерированный робот будет бежать на четвереньках, а человек — на двух ногах. Чтобы добиться одинаковых поз, нужно обучить нейросеть правильно создавать переходные формы — так, чтобы один объект плавно превращался в другой.

Каждой такой форме ставится вектор этого класса. Например, если робот — это 0, а человек — 1, то их гибриды — это промежуточные значения между 0 и 1. Они вычисляются с помощью интерполяции. Затем модель обучается генерировать не только крайние точки, но и саму траекторию перехода из одного объекта в другой. Это позволяет получить объекты с одинаковым расположением частей.


Как обучают такие модели?

💚 В основе обучения лежит метод, который называется Score Distillation Sampling. Модель-ученик генерирует объект. А «учитель» оценивает, насколько результат соответствует текстовому промпту, и предлагает правки.
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:

1. Создаём рендер объекта c помощью 3D-генератора
2. «Зашумляем» полученное изображение
3. 2D-диффузионная модель пытается угадать по промпту, какой шум мы добавили, и «расшумляет» картинку
4. Считаем диффузионный лосс: сравниваем шум, который мы изначально добавили, и шум, предсказанный 2D-моделью


Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.

Чем полезен A3D?

💚 Метод позволяет:
🔘Редактировать загруженный пользователем готовый меш — виртуальный каркас объекта
🔘Менять части объектов в парной генерации. Например, создать одинаково сидящих обезьян, одна из которых — в шапке
🔘Комбинировать объекты — сделать гибрид бобра и кенгуру

Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылкепрочитать статью полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏32
Учёные создали «Периодическую AI-таблицу» 🤖

Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.

В чём суть

🔘 В её основе — фреймворк I-Con, описывающий через единое уравнение, как разные алгоритмы выявляют взаимосвязи между данными
🔘 Он объединяет более 20 методов: от PCA и t-SNE до современных подходов Contrastive Learning
🔘 Таблица позволяет классифицировать и сопоставлять подходы к обучению


💡 Система облегчает подбор алгоритмов под конкретные задачи. Она также указывает на возможные архитектуры, подобно тому, как таблица Менделеева помогала предсказывать существование ещё не открытых элементов.

🔥 — и вам приснятся ещё не открытые алгоритмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AI, у которого русский — родной

Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.

🤖 GigaAM — это базовая модель. У неё есть версии, точно настроенные под конкретные задачи: GigaAM-CTC и GigaAM-RNNT распознают речь, а GigaAM-Emo определяет эмоции.

Как обучали GigaAM

В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.

💳 В предобучении GigaAM разработчики использовали новый подход HuBERT-CTC, про который подробно рассказали в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.

💳 Для дообучения GigaAM-CTC использовались корпуса аудиозаписей Golos, Sova, CommonVoice и LibriSpeech. Они состоят из аудиокниг и записей живой речи.

💳 GigaAM-Emo дообучали на наборе Dusha — фрагментах подкастов и записях речи актёров озвучки продолжительностью до 20 секунд. Каждой записи приписали одно из четырёх состояний: злость, грусть, нейтральную эмоцию или счастье.

Что умеют эти модели

🔘 GigaAM-CTC на 50% точнее Whisper-Large-v3

🔘 GigaAM-Emo правильно определяет эмоции в 90% случаев, если запись хорошего качества. С шумными записями точность ниже, но показатели всё равно лучше, чем у аналогичных моделей


GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.

➡️ Узнать подробности можно на GitHub.
➡️ Улучшенную версию GigaAM можно попробовать в Telegram-боте SaluteSpeech. А если вы развиваете свой бизнес-проект, рекомендуем ознакомиться с SaluteSpeech API.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥3👏3
Blip3-o: модель, рисующая смыслами 🏆

Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.

BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»
2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение
3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку


В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.

🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.

🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.

⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.

➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2🤔2👏1