Нейросети стали умнее 🔄
Теперь в GigaChat вы можете генерировать высококачественные изображения с обновлённой моделью Kandinsky 4.1 Image, а затем редактировать их в пару кликов с помощью AI-редактора Malvina.
Новая версия Kandinsky работает на архитектуре DiT — больше деталей и выше скорость генерации. Модель обучена на датасете изображений, отобранных вручную.
Что в обновлении:
AI-редактор Malvina поможет доработать результат прямо внутри GigaChat: изменить фон, цвет или добавить новые объекты. Подробнее — в посте.
➡️ Попробуйте дуэт Kandinsky + Malvina
Теперь в GigaChat вы можете генерировать высококачественные изображения с обновлённой моделью Kandinsky 4.1 Image, а затем редактировать их в пару кликов с помощью AI-редактора Malvina.
Новая версия Kandinsky работает на архитектуре DiT — больше деталей и выше скорость генерации. Модель обучена на датасете изображений, отобранных вручную.
Что в обновлении:
🔘 реалистичнее передаёт лица и анатомию людей🔘 качественнее рисует животных, текстуры, сложные объекты🔘 работает в разных стилях — от Айвазовского до Миядзаки🔘 лучше понимает российский культурный код — гжель, матрёшки, богатыри🔘 точнее следует сложным запросам с описанием множества деталей
AI-редактор Malvina поможет доработать результат прямо внутри GigaChat: изменить фон, цвет или добавить новые объекты. Подробнее — в посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍8🔥4👏4
Отличите ли вы творения классиков Золотого и Серебряного веков от опусов нейросети? В День русского языка мы решили проверить, сможет ли AI написать стихи на великом и могучем наравне с реальными поэтами. Внимание на карточки!
Сколько раз вы попали в точку?
❤️ — 5-7
👍 — 3-5
🤔 — 1-2
Сколько раз вы попали в точку?
❤️ — 5-7
👍 — 3-5
🤔 — 1-2
❤19👍5🔥3🤔2
AI-агент GigaCode избавит разработчиков от рутины 🔝
На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.
Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.
🔘 Что умеет агент:
Инструмент бесплатный для всех пользователей GitVerse.
➡️ Попробуйте новые возможности GigaCode
На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.
Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.
🔘 автоматически анализирует изменения в коде🔘 ищет ошибки и уязвимости🔘 даёт советы по оптимизации🔘 объясняет правки в режиме диалога
Инструмент бесплатный для всех пользователей GitVerse.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи научили нейросети точно редактировать геометрию 3D-моделей 🤖
Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.
Как работает метод A3D?
💚 Допустим, пользователь хочет сгенерировать бегущих человека и робота с одинаковым положением конечностей. Скорее всего, нейросеть не сможет в точности повторить позу, поэтому сгенерированный робот будет бежать на четвереньках, а человек — на двух ногах. Чтобы добиться одинаковых поз, нужно обучить нейросеть правильно создавать переходные формы — так, чтобы один объект плавно превращался в другой.
Как обучают такие модели?
💚 В основе обучения лежит метод, который называется Score Distillation Sampling. Модель-ученик генерирует объект. А «учитель» оценивает, насколько результат соответствует текстовому промпту, и предлагает правки.
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:
Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.
Чем полезен A3D?
💚 Метод позволяет:
🔘 Редактировать загруженный пользователем готовый меш — виртуальный каркас объекта
🔘 Менять части объектов в парной генерации. Например, создать одинаково сидящих обезьян, одна из которых — в шапке
🔘 Комбинировать объекты — сделать гибрид бобра и кенгуру
Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылке — прочитать статью полностью.
Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.
Как работает метод A3D?
Каждой такой форме ставится вектор этого класса. Например, если робот — это 0, а человек — 1, то их гибриды — это промежуточные значения между 0 и 1. Они вычисляются с помощью интерполяции. Затем модель обучается генерировать не только крайние точки, но и саму траекторию перехода из одного объекта в другой. Это позволяет получить объекты с одинаковым расположением частей.
Как обучают такие модели?
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:
1. Создаём рендер объекта c помощью 3D-генератора
2. «Зашумляем» полученное изображение
3. 2D-диффузионная модель пытается угадать по промпту, какой шум мы добавили, и «расшумляет» картинку
4. Считаем диффузионный лосс: сравниваем шум, который мы изначально добавили, и шум, предсказанный 2D-моделью
Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.
Чем полезен A3D?
Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылке — прочитать статью полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏3❤2
Учёные создали «Периодическую AI-таблицу» 🤖
Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.
В чём суть
💡 Система облегчает подбор алгоритмов под конкретные задачи. Она также указывает на возможные архитектуры, подобно тому, как таблица Менделеева помогала предсказывать существование ещё не открытых элементов.
🔥 — и вам приснятся ещё не открытые алгоритмы.
Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.
В чём суть
🔘 В её основе — фреймворк I-Con, описывающий через единое уравнение, как разные алгоритмы выявляют взаимосвязи между данными🔘 Он объединяет более 20 методов: от PCA и t-SNE до современных подходов Contrastive Learning🔘 Таблица позволяет классифицировать и сопоставлять подходы к обучению
🔥 — и вам приснятся ещё не открытые алгоритмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AI, у которого русский — родной
Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.
🤖 GigaAM — это базовая модель. У неё есть версии, точно настроенные под конкретные задачи: GigaAM-CTC и GigaAM-RNNT распознают речь, а GigaAM-Emo определяет эмоции.
Как обучали GigaAM
В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.
💳 В предобучении GigaAM разработчики использовали новый подход HuBERT-CTC, про который подробно рассказали в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.
💳 Для дообучения GigaAM-CTC использовались корпуса аудиозаписей Golos, Sova, CommonVoice и LibriSpeech. Они состоят из аудиокниг и записей живой речи.
💳 GigaAM-Emo дообучали на наборе Dusha — фрагментах подкастов и записях речи актёров озвучки продолжительностью до 20 секунд. Каждой записи приписали одно из четырёх состояний: злость, грусть, нейтральную эмоцию или счастье.
Что умеют эти модели
GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.
➡️ Узнать подробности можно на GitHub.
➡️ Улучшенную версию GigaAM можно попробовать в Telegram-боте SaluteSpeech. А если вы развиваете свой бизнес-проект, рекомендуем ознакомиться с SaluteSpeech API.
Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.
Как обучали GigaAM
В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.
Что умеют эти модели
🔘 GigaAM-CTC на 50% точнее Whisper-Large-v3🔘 GigaAM-Emo правильно определяет эмоции в 90% случаев, если запись хорошего качества. С шумными записями точность ниже, но показатели всё равно лучше, чем у аналогичных моделей
GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥3👏3
Blip3-o: модель, рисующая смыслами 🏆
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.
🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.
🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.
⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.
➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥2🤔2👏1