AI-агент GigaCode избавит разработчиков от рутины 🔝
На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.
Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.
🔘 Что умеет агент:
Инструмент бесплатный для всех пользователей GitVerse.
➡️ Попробуйте новые возможности GigaCode
На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.
Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.
🔘 автоматически анализирует изменения в коде🔘 ищет ошибки и уязвимости🔘 даёт советы по оптимизации🔘 объясняет правки в режиме диалога
Инструмент бесплатный для всех пользователей GitVerse.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи научили нейросети точно редактировать геометрию 3D-моделей 🤖
Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.
Как работает метод A3D?
💚 Допустим, пользователь хочет сгенерировать бегущих человека и робота с одинаковым положением конечностей. Скорее всего, нейросеть не сможет в точности повторить позу, поэтому сгенерированный робот будет бежать на четвереньках, а человек — на двух ногах. Чтобы добиться одинаковых поз, нужно обучить нейросеть правильно создавать переходные формы — так, чтобы один объект плавно превращался в другой.
Как обучают такие модели?
💚 В основе обучения лежит метод, который называется Score Distillation Sampling. Модель-ученик генерирует объект. А «учитель» оценивает, насколько результат соответствует текстовому промпту, и предлагает правки.
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:
Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.
Чем полезен A3D?
💚 Метод позволяет:
🔘 Редактировать загруженный пользователем готовый меш — виртуальный каркас объекта
🔘 Менять части объектов в парной генерации. Например, создать одинаково сидящих обезьян, одна из которых — в шапке
🔘 Комбинировать объекты — сделать гибрид бобра и кенгуру
Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылке — прочитать статью полностью.
Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.
Как работает метод A3D?
Каждой такой форме ставится вектор этого класса. Например, если робот — это 0, а человек — 1, то их гибриды — это промежуточные значения между 0 и 1. Они вычисляются с помощью интерполяции. Затем модель обучается генерировать не только крайние точки, но и саму траекторию перехода из одного объекта в другой. Это позволяет получить объекты с одинаковым расположением частей.
Как обучают такие модели?
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:
1. Создаём рендер объекта c помощью 3D-генератора
2. «Зашумляем» полученное изображение
3. 2D-диффузионная модель пытается угадать по промпту, какой шум мы добавили, и «расшумляет» картинку
4. Считаем диффузионный лосс: сравниваем шум, который мы изначально добавили, и шум, предсказанный 2D-моделью
Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.
Чем полезен A3D?
Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылке — прочитать статью полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏3❤2
Учёные создали «Периодическую AI-таблицу» 🤖
Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.
В чём суть
💡 Система облегчает подбор алгоритмов под конкретные задачи. Она также указывает на возможные архитектуры, подобно тому, как таблица Менделеева помогала предсказывать существование ещё не открытых элементов.
🔥 — и вам приснятся ещё не открытые алгоритмы.
Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.
В чём суть
🔘 В её основе — фреймворк I-Con, описывающий через единое уравнение, как разные алгоритмы выявляют взаимосвязи между данными🔘 Он объединяет более 20 методов: от PCA и t-SNE до современных подходов Contrastive Learning🔘 Таблица позволяет классифицировать и сопоставлять подходы к обучению
🔥 — и вам приснятся ещё не открытые алгоритмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AI, у которого русский — родной
Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.
🤖 GigaAM — это базовая модель. У неё есть версии, точно настроенные под конкретные задачи: GigaAM-CTC и GigaAM-RNNT распознают речь, а GigaAM-Emo определяет эмоции.
Как обучали GigaAM
В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.
💳 В предобучении GigaAM разработчики использовали новый подход HuBERT-CTC, про который подробно рассказали в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.
💳 Для дообучения GigaAM-CTC использовались корпуса аудиозаписей Golos, Sova, CommonVoice и LibriSpeech. Они состоят из аудиокниг и записей живой речи.
💳 GigaAM-Emo дообучали на наборе Dusha — фрагментах подкастов и записях речи актёров озвучки продолжительностью до 20 секунд. Каждой записи приписали одно из четырёх состояний: злость, грусть, нейтральную эмоцию или счастье.
Что умеют эти модели
GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.
➡️ Узнать подробности можно на GitHub.
➡️ Улучшенную версию GigaAM можно попробовать в Telegram-боте SaluteSpeech. А если вы развиваете свой бизнес-проект, рекомендуем ознакомиться с SaluteSpeech API.
Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.
Как обучали GigaAM
В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.
Что умеют эти модели
🔘 GigaAM-CTC на 50% точнее Whisper-Large-v3🔘 GigaAM-Emo правильно определяет эмоции в 90% случаев, если запись хорошего качества. С шумными записями точность ниже, но показатели всё равно лучше, чем у аналогичных моделей
GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥3👏3
Blip3-o: модель, рисующая смыслами 🏆
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.
🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.
🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.
⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.
➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥2🤔2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.
Национальный корпус русского языка
✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.
Slovo
💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.
∇²DFT
👨💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.
Skoltech3D
💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.
Museum exhibits dataset
⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.
MosMedData Chest CT Scans
🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.
❤️ — если хотите больше историй о российских AI-разработках
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
Национальный корпус русского языка
Slovo
∇²DFT
Skoltech3D
Museum exhibits dataset
MosMedData Chest CT Scans
❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👏6💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Odyssey: нейросеть для создания 3D-миров 🎮
Стартап Odyssey представил нейросеть, которая превращает видео в интерактивные 3D-миры и позволяет с ними взаимодействовать. Как в игре, но без движка🔥
В основе — авторегрессионная модель (World Models), которая:
🔘 По словам разработчиков, Odyssey стабильно генерирует пять минут видео с частотой до 30 кадров в секунду. Сейчас качество генераций пока оставляет желать лучшего. Но, несмотря на это, разработка уже открывает путь к фильмам и играм нового типа, в которых миры будут формироваться по ходу действия. Это означает, что каждый просмотр или сессия в игре будут уникальными.
➡️ Попробовать демо (на стрелочки нажимайте мышкой 😉)
💯 — если ждёте релиз, чтобы погулять по своим видео с отпуска
Стартап Odyssey представил нейросеть, которая превращает видео в интерактивные 3D-миры и позволяет с ними взаимодействовать. Как в игре, но без движка
В основе — авторегрессионная модель (World Models), которая:
🔘 считывает текущее состояние сцены🔘 учитывает действия пользователя (шаг, поворот)🔘 предсказывает на их основе следующий кадр🔘 достраивает сцену в реальном времени
💯 — если ждёте релиз, чтобы погулять по своим видео с отпуска
Please open Telegram to view this post
VIEW IN TELEGRAM
💯9❤6🔥3
Сегодня у Kandinsky день рождения — нейрохудожнику исполняется 3 года 🎉
В честь праздника мы предложили ему нарисовать картину в стиле Василия Кандинского. Сможете ли вы отличить AI-художника от настоящего?
Правильный ответ👇
Сверху — «Композиция VII», написанная Василием Кандинским в 1913. Снизу — «Генерация №866», созданная Kandinsky в 2025.
Угадали?
❤️ — да
🤔 — нет
В честь праздника мы предложили ему нарисовать картину в стиле Василия Кандинского. Сможете ли вы отличить AI-художника от настоящего?
Правильный ответ
Угадали?
❤️ — да
🤔 — нет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21🤔6
Самая дорогая модель OpenAI и браузер от Perplexity — в нашем дайджесте 🤖
➡️ OpenAI выпустила ChatGPT o3-Pro — самую дорогую версию в линейке. Это продвинутая рассуждающая модель для решения задач в науке, образовании, программировании и бизнесе. Стоимость доступа к o3-pro через API — $20 за 1 млн входных токенов и $80 за 1 млн выходных. В тестах превзошла Gemini 2.5 Pro — самую топовую версию AI от Google.
➡️ Google добавила в Gemini поддержку запланированных задач. Теперь подписчики AI Pro и Ultra могут поручать ассистенту работу с расписанием, например, каждый вечер получать сводку из новостей. Или разово — попросить составить ревью прошедшего события, рабочий план на понедельник.
➡️ Mistral AI представила Magistral — модель, которая работает по принципу логического мышления. Нейросеть решает задачи по праву, финансам и медицине, показывая каждый свой шаг. Это помогает не только получить ответ, но и проследить за ходом рассуждений модели.
➡️ Perplexity запускает Comet — AI-браузер нового поколения. Он не просто ищет ссылки, а ведёт диалог: уточняет запросы, сам анализирует источники и выдаёт готовый ответ — всё в окне браузера, без сторонних сервисов.
👍 — жду AI-браузеры с умным поиском
💯 — старый добрый гуглинг всё ещё рулит
👍 — жду AI-браузеры с умным поиском
💯 — старый добрый гуглинг всё ещё рулит
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13💯2
На Международной сессии AI Journey расскажут про последние тренды GenAI 🚀
16 июня в петербургском Технохабе Сбера обсудим главные тренды генеративного AI вместе с экспертами международной сессии AI Journey. В программе — доклады о развитии AI-агентов, технологических прорывах и применении нейросетей в бизнесе, медицине и госуправлении, а также на площадке Технохаба пройдет форсайт-сессия.
Программа докладов
➡️ Подключайтесь онлайн завтра в 10.00 по мск.
Мы ждём вас💚
16 июня в петербургском Технохабе Сбера обсудим главные тренды генеративного AI вместе с экспертами международной сессии AI Journey. В программе — доклады о развитии AI-агентов, технологических прорывах и применении нейросетей в бизнесе, медицине и госуправлении, а также на площадке Технохаба пройдет форсайт-сессия.
Программа докладов
🔘 Перспективы архитектуры LLM следующего поколения — Хоу Хаовен, доцент Гуандунской лаборатории искусственного интеллекта и цифровой экономики, Шэньчжэнь🔘 GigaChat и будущее русскоязычного искусственного интеллекта — Эмиль Шакиров, руководитель Alignment в GigaChat, Сбер🔘 Тренды в рекомендательных системах: технологии, которые понимают людей — Иван Кузьмин, директор департамента данных и рекомендательных систем B2C, Сбер🔘 Новый тренд: ИИ агенты — активная медицина данных — Виктор Гомболевский, кандидат медицинских наук, ведущий научный сотрудник Института AIRI🔘 Усовершенствованные интерфейсы мозг-компьютер с GenAI для моделирования когнитивных состояний и коммуникации — Субрамани Нилакандан, профессор-исследователь лаборатории интеллектуальных нейрокогнитивных знаний и анализа данных SNKDIR, Инженерный колледж имени Р.М.К., Индия
Мы ждём вас
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
RPT: новый подход к обучению LLM 🤖
Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.
Обычно LLM обучают в два этапа
У этого подхода есть недостатки:
🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен.
🔘 второй этап требует трудозатратной ручной разметки.
➡️ Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами.
⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.
💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?
💯 — за RPT будущее
👍 — классическое обучение
Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.
Обычно LLM обучают в два этапа
1️⃣ Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов2️⃣ Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов
У этого подхода есть недостатки:
💯 — за RPT будущее
👍 — классическое обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
💯9🤔7❤4👍3👏1
Разбираем по полочкам мультимодальные LLM 🤖
В прошлом посте мы рассказали про основные виды языковых моделей. В этом — раскроем принципы работы и устройства диалоговых и мультимодальных систем.
В карточках — как они устроены и где применяются⬆️
👍 — если за LLM будущее
В прошлом посте мы рассказали про основные виды языковых моделей. В этом — раскроем принципы работы и устройства диалоговых и мультимодальных систем.
В карточках — как они устроены и где применяются
👍 — если за LLM будущее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤔2🔥1