Blip3-o: модель, рисующая смыслами 🏆
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.
🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.
🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.
⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.
➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥2🤔2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.
Национальный корпус русского языка
✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.
Slovo
💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.
∇²DFT
👨💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.
Skoltech3D
💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.
Museum exhibits dataset
⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.
MosMedData Chest CT Scans
🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.
❤️ — если хотите больше историй о российских AI-разработках
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
Национальный корпус русского языка
Slovo
∇²DFT
Skoltech3D
Museum exhibits dataset
MosMedData Chest CT Scans
❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👏6💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Odyssey: нейросеть для создания 3D-миров 🎮
Стартап Odyssey представил нейросеть, которая превращает видео в интерактивные 3D-миры и позволяет с ними взаимодействовать. Как в игре, но без движка🔥
В основе — авторегрессионная модель (World Models), которая:
🔘 По словам разработчиков, Odyssey стабильно генерирует пять минут видео с частотой до 30 кадров в секунду. Сейчас качество генераций пока оставляет желать лучшего. Но, несмотря на это, разработка уже открывает путь к фильмам и играм нового типа, в которых миры будут формироваться по ходу действия. Это означает, что каждый просмотр или сессия в игре будут уникальными.
➡️ Попробовать демо (на стрелочки нажимайте мышкой 😉)
💯 — если ждёте релиз, чтобы погулять по своим видео с отпуска
Стартап Odyssey представил нейросеть, которая превращает видео в интерактивные 3D-миры и позволяет с ними взаимодействовать. Как в игре, но без движка
В основе — авторегрессионная модель (World Models), которая:
🔘 считывает текущее состояние сцены🔘 учитывает действия пользователя (шаг, поворот)🔘 предсказывает на их основе следующий кадр🔘 достраивает сцену в реальном времени
💯 — если ждёте релиз, чтобы погулять по своим видео с отпуска
Please open Telegram to view this post
VIEW IN TELEGRAM
💯9❤6🔥3
Сегодня у Kandinsky день рождения — нейрохудожнику исполняется 3 года 🎉
В честь праздника мы предложили ему нарисовать картину в стиле Василия Кандинского. Сможете ли вы отличить AI-художника от настоящего?
Правильный ответ👇
Сверху — «Композиция VII», написанная Василием Кандинским в 1913. Снизу — «Генерация №866», созданная Kandinsky в 2025.
Угадали?
❤️ — да
🤔 — нет
В честь праздника мы предложили ему нарисовать картину в стиле Василия Кандинского. Сможете ли вы отличить AI-художника от настоящего?
Правильный ответ
Угадали?
❤️ — да
🤔 — нет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21🤔6
Самая дорогая модель OpenAI и браузер от Perplexity — в нашем дайджесте 🤖
➡️ OpenAI выпустила ChatGPT o3-Pro — самую дорогую версию в линейке. Это продвинутая рассуждающая модель для решения задач в науке, образовании, программировании и бизнесе. Стоимость доступа к o3-pro через API — $20 за 1 млн входных токенов и $80 за 1 млн выходных. В тестах превзошла Gemini 2.5 Pro — самую топовую версию AI от Google.
➡️ Google добавила в Gemini поддержку запланированных задач. Теперь подписчики AI Pro и Ultra могут поручать ассистенту работу с расписанием, например, каждый вечер получать сводку из новостей. Или разово — попросить составить ревью прошедшего события, рабочий план на понедельник.
➡️ Mistral AI представила Magistral — модель, которая работает по принципу логического мышления. Нейросеть решает задачи по праву, финансам и медицине, показывая каждый свой шаг. Это помогает не только получить ответ, но и проследить за ходом рассуждений модели.
➡️ Perplexity запускает Comet — AI-браузер нового поколения. Он не просто ищет ссылки, а ведёт диалог: уточняет запросы, сам анализирует источники и выдаёт готовый ответ — всё в окне браузера, без сторонних сервисов.
👍 — жду AI-браузеры с умным поиском
💯 — старый добрый гуглинг всё ещё рулит
👍 — жду AI-браузеры с умным поиском
💯 — старый добрый гуглинг всё ещё рулит
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13💯2❤1
На Международной сессии AI Journey расскажут про последние тренды GenAI 🚀
16 июня в петербургском Технохабе Сбера обсудим главные тренды генеративного AI вместе с экспертами международной сессии AI Journey. В программе — доклады о развитии AI-агентов, технологических прорывах и применении нейросетей в бизнесе, медицине и госуправлении, а также на площадке Технохаба пройдет форсайт-сессия.
Программа докладов
➡️ Подключайтесь онлайн завтра в 10.00 по мск.
Мы ждём вас💚
16 июня в петербургском Технохабе Сбера обсудим главные тренды генеративного AI вместе с экспертами международной сессии AI Journey. В программе — доклады о развитии AI-агентов, технологических прорывах и применении нейросетей в бизнесе, медицине и госуправлении, а также на площадке Технохаба пройдет форсайт-сессия.
Программа докладов
🔘 Перспективы архитектуры LLM следующего поколения — Хоу Хаовен, доцент Гуандунской лаборатории искусственного интеллекта и цифровой экономики, Шэньчжэнь🔘 GigaChat и будущее русскоязычного искусственного интеллекта — Эмиль Шакиров, руководитель Alignment в GigaChat, Сбер🔘 Тренды в рекомендательных системах: технологии, которые понимают людей — Иван Кузьмин, директор департамента данных и рекомендательных систем B2C, Сбер🔘 Новый тренд: ИИ агенты — активная медицина данных — Виктор Гомболевский, кандидат медицинских наук, ведущий научный сотрудник Института AIRI🔘 Усовершенствованные интерфейсы мозг-компьютер с GenAI для моделирования когнитивных состояний и коммуникации — Субрамани Нилакандан, профессор-исследователь лаборатории интеллектуальных нейрокогнитивных знаний и анализа данных SNKDIR, Инженерный колледж имени Р.М.К., Индия
Мы ждём вас
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
RPT: новый подход к обучению LLM 🤖
Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.
Обычно LLM обучают в два этапа
У этого подхода есть недостатки:
🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен.
🔘 второй этап требует трудозатратной ручной разметки.
➡️ Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами.
⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.
💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?
💯 — за RPT будущее
👍 — классическое обучение
Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.
Обычно LLM обучают в два этапа
1️⃣ Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов2️⃣ Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов
У этого подхода есть недостатки:
💯 — за RPT будущее
👍 — классическое обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
💯9🤔7❤4👍3👏1
Разбираем по полочкам мультимодальные LLM 🤖
В прошлом посте мы рассказали про основные виды языковых моделей. В этом — раскроем принципы работы и устройства диалоговых и мультимодальных систем.
В карточках — как они устроены и где применяются⬆️
👍 — если за LLM будущее
В прошлом посте мы рассказали про основные виды языковых моделей. В этом — раскроем принципы работы и устройства диалоговых и мультимодальных систем.
В карточках — как они устроены и где применяются
👍 — если за LLM будущее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤔2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
На ПМЭФ представили режим «Глубокое исследование» в GigaChat 👩🎓
Новая функция поможет с задачами, требующими основательного погружения. С помощью «Глубокого исследования» вы можете собирать информацию из надёжных источников, проводить аналитику по заданной теме и получать подробные отчёты.
Ранее для этого требовалось:
Теперь процесс выглядит так:
Пробуйте новый режим по ссылке, а тест смотрите в ролике⬆️
💯 — поможет быстрее разобраться в сути
Новая функция поможет с задачами, требующими основательного погружения. С помощью «Глубокого исследования» вы можете собирать информацию из надёжных источников, проводить аналитику по заданной теме и получать подробные отчёты.
Ранее для этого требовалось:
🔘 изучать десятки статей в интернете🔘 отсеивать нерелевантные публикации🔘 вручную структурировать материалы
⏱️ Итог: 2–3 часа при благоприятных условиях
Теперь процесс выглядит так:
🔘 открываете GigaChat🔘 вводите запрос по интересующей теме🔘 нажимаете на кнопку «Режим» → «Провести исследование» под полем ввода🔘 выбираете тон: объективный, академический или другой🔘 получаете подробный ответ с кратким содержанием статей и ссылками на первоисточники
⏱️ Итог: менее 5 минут на исследование
Пробуйте новый режим по ссылке, а тест смотрите в ролике
💯 — поможет быстрее разобраться в сути
Please open Telegram to view this post
VIEW IN TELEGRAM
💯8👍3🔥2🤔2👏1