This media is not supported in your browser
VIEW IN TELEGRAM
Диффузионные модели генерируют качественные изображения, музыку и видео по текстовому запросу. Рассказываем, как это происходит.
Что такое диффузия
👨💻 Представьте, что вы моете кисточку с краской. Распределение частиц краски в стакане воды будет меняться, как и вероятность появления случайной частицы в том или ином месте. Эти закономерности можно приложить к данным.
Как работают такие модели
👨💻 Во время генерации изображения модель преобразовывает исходное распределение данных в целевое — то есть соответствующее промпту пользователя.
Исходное распределение данных — это шум. Например, гауссовский шум, который обладает нормальным статистическим распределением вероятностей. Модель шаг за шагом стирает его компоненты, детализируя будущую картинку. Для этого она выстраивает цепь Маркова, в которой каждый следующий этап «расшумления» зависит только от предыдущего.
Как устроено обучение
👨💻 Сначала модель учится добавлять шум в набор тренировочных данных — например, в изображения. А затем — обращать процесс вспять и возвращать данные в исходное состояние.
Чтобы ускорить генерацию, применяют дистилляцию. Модель, обученная стандартными способами, тренирует «ученика», чтобы тот генерировал качественный результат за меньшее количество шагов.
В чём преимущества
Примеры
👨💻 Dall-E 3 от OpenAI, Stable Diffusion от Stability AI, Midjourney. Диффузионные модели лежат в основе работы Kandinsky: благодаря им картинки получаются реалистичными. А модели GigaChat генерируют музыку и редактируют изображения по текстовому запросу.
Пользуетесь диффузионными моделями?
😍 — да, они помогают мне в работе
👍 — да, просто люблю экспериментировать
☹️ — разве может робот написать симфонию, создать шедевр?
Что такое диффузия
Как работают такие модели
Исходное распределение данных — это шум. Например, гауссовский шум, который обладает нормальным статистическим распределением вероятностей. Модель шаг за шагом стирает его компоненты, детализируя будущую картинку. Для этого она выстраивает цепь Маркова, в которой каждый следующий этап «расшумления» зависит только от предыдущего.
Как устроено обучение
Чтобы ускорить генерацию, применяют дистилляцию. Модель, обученная стандартными способами, тренирует «ученика», чтобы тот генерировал качественный результат за меньшее количество шагов.
В чём преимущества
🔘 Учатся стабильнее, чем генеративные состязательные нейросети (GAN)🔘 Благодаря пошаговому процессу диффузии изображения реалистичны и детальны, а работа моделей прозрачна и интерпретируема🔘 Могут точечно редактировать сгенерированные изображения
Примеры
Пользуетесь диффузионными моделями?
😍 — да, они помогают мне в работе
👍 — да, просто люблю экспериментировать
☹️ — разве может робот написать симфонию, создать шедевр?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🤔2
«Фронтиры прогресса» — конференция о будущем технологий, где встречаются наука и бизнес 🚀
22–23 мая Сколтех станет местом диалога исследователей, предпринимателей и государственных лидеров. В мероприятии примут участие эксперты и исследователи Сбера🎤
Секционные обсуждения, научные доклады, лабораторные презентации, выставка достижений, постерные сессии и многое другое принесут участникам идеи и вдохновение💡
📱 Регистрируйтесь до 21 мая по ссылке
22–23 мая Сколтех станет местом диалога исследователей, предпринимателей и государственных лидеров. В мероприятии примут участие эксперты и исследователи Сбера
Среди тем — AI, энергетика, фотоника, биотехнологии, новые материалы. Участники обсудят, что нужно бизнесу от науки и как трансформировать открытия в реальные продукты.
Секционные обсуждения, научные доклады, лабораторные презентации, выставка достижений, постерные сессии и многое другое принесут участникам идеи и вдохновение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2
Трансформеры против классических ML ⚡️
Большинство ML-алгоритмов работают последовательно и подходят для небольших датасетов, тогда как трансформеры с self-attention обрабатывают всё сразу и в огромных количествах. Значит ли это, что классика устарела? Вовсе нет! Она просто решает другие задачи. Разбираем архитектуру, принципы работы, плюсы и минусы обоих подходов💻
Какие модели вы применяете для своих проектов?
❤️ — трансформеры
👍 — традиционные ML-алгоритмы
Большинство ML-алгоритмов работают последовательно и подходят для небольших датасетов, тогда как трансформеры с self-attention обрабатывают всё сразу и в огромных количествах. Значит ли это, что классика устарела? Вовсе нет! Она просто решает другие задачи. Разбираем архитектуру, принципы работы, плюсы и минусы обоих подходов
Какие модели вы применяете для своих проектов?
❤️ — трансформеры
👍 — традиционные ML-алгоритмы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3
Медицинские бенчмарки и математика от DeepMind — собрали всё самое важное 🤖
Модели и мультимодальные системы
1️⃣ OpenAI добавила GPT‑4.1 и GPT‑4.1 mini в ChatGPT. Новая модель быстрее GPT‑4o и лучше справляется с написанием и отладкой кода. Вместе с релизом представлен Safety Hub — центр оценки безопасности моделей.
2️⃣ Alibaba выпустила Wan2.1-VACE — универсальную модель для генерации и редактирования видео. Поддерживает R2V, V2V и MV2V, работает на RTX 4090, генерирует пять секунд видео за четыре минуты. Поддерживает монтаж и качество 1080p.
3️⃣ Stability AI разработала Stable Audio Open Small — аудиомодель с 341 млн параметров. Решение генерирует до 11 секунд стереозвука менее чем за 8 секунд и запускается на смартфоне. Модель обучена на открытых данных, работает офлайн и доступна бесплатно на GitHub.
Ассистенты и инструменты разработчика
4️⃣ Gemini теперь можно подключить к GitHub. Пользователи Gemini Advanced могут импортировать публичные и приватные репозитории, а после использовать AI для работы с кодом. В частности, модель помогает править и отлаживать проекты.
5️⃣ DeepMind представила AlphaEvolve — AI-агента, который ускоряет обучение моделей. Новая система сочетает возможности Gemini с автоматической оценкой решений и уже оптимизирует дата-центры Google. Её протестировали на 50 сложных задачах по математике, и в 20% случаев AI предложил более точные решения. Эти результаты подчёркивают потенциал модели для создания новых, эффективных алгоритмов.
Наука и инфраструктура
6️⃣ OpenAI разработала HealthBench — бенчмарк для оценки AI в медицине. В нём 5 000 диалогов и 57 000 критериев для проверки точности и полноты ответов. По результатам тестов, модель o3 лидирует по качеству коммуникации с пользователем. При этом некоторые специалисты раскритиковали компанию за оценку собственных моделей.
Модели и мультимодальные системы
Ассистенты и инструменты разработчика
Наука и инфраструктура
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
OpenMemory сохранит память о ваших взаимодействиях с AI-помощниками ☀️
Одно из основных затруднений при работе с разными нейросетями — они не знают, что вы уже обсуждали с другими. Каждый раз как в первый. Но теперь проблему можно обойти: появился плагин OpenMemory, который объединяет память всех ваших AI-собеседников.
Например, если вы обсуждали задачу с Claude месяц назад, разговор можно продолжить с Cursor. Никаких повторов, никаких забытых вводных — модели будут знать, о чём вы говорили с другими помощниками. Главное, чтобы ревновать не начали...💔
Основные фичи:
🔘 Централизованное хранилище диалогов
🔘 Удобный поиск по истории
🔘 Возможность удалить устаревшие данные
🔘 Расширение контекста знаний и памяти нейросетей
Запускается локально — данные не уходят на внешние серверы. Это означает больше приватности, возможность автономной работы, ускорение доступа к памяти. Для разработчиков и продвинутых пользователей OpenMemory — это способ связать все инструменты в единую экосистему. Пишете код в Cursor, проверяете гипотезы с Claude, валидируете всё в Windsurf.
▶️ Читайте подробности и скачивайте на GitHub.
Одно из основных затруднений при работе с разными нейросетями — они не знают, что вы уже обсуждали с другими. Каждый раз как в первый. Но теперь проблему можно обойти: появился плагин OpenMemory, который объединяет память всех ваших AI-собеседников.
Например, если вы обсуждали задачу с Claude месяц назад, разговор можно продолжить с Cursor. Никаких повторов, никаких забытых вводных — модели будут знать, о чём вы говорили с другими помощниками. Главное, чтобы ревновать не начали...
Основные фичи:
Запускается локально — данные не уходят на внешние серверы. Это означает больше приватности, возможность автономной работы, ускорение доступа к памяти. Для разработчиков и продвинутых пользователей OpenMemory — это способ связать все инструменты в единую экосистему. Пишете код в Cursor, проверяете гипотезы с Claude, валидируете всё в Windsurf.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🤔1
Все типы языковых моделей в одном посте 📲
Моделей становится всё больше, а запросы — всё разнообразнее. Одни лучше справляются с кодом, другие — с медицинскими терминами, третьи умеют логически рассуждать или работать автономно. В карточках разбираемся, какие модели лучше подойдут под конкретную задачу🖥
Моделей становится всё больше, а запросы — всё разнообразнее. Одни лучше справляются с кодом, другие — с медицинскими терминами, третьи умеют логически рассуждать или работать автономно. В карточках разбираемся, какие модели лучше подойдут под конкретную задачу
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🤔2
Хакатон СберИндекса: исследуйте Россию через данные 🧠
Лаборатория СберИндекс 7 июня проведёт первый хакатон для тех, кто хочет изучать страну через данные. Участники будут работать с уникальной муниципальной статистикой, которой нет в открытом доступе. На её основе они смогут лучше понять социальные и экономические процессы в России и разработать собственные AI-решения для аналитики данных.
Направления для проектов:
🏆 Общий призовой фонд — 450 000 ₽
➡️ Регистрируйся до 30 мая и внеси вклад в цифровое развитие страны
Лаборатория СберИндекс 7 июня проведёт первый хакатон для тех, кто хочет изучать страну через данные. Участники будут работать с уникальной муниципальной статистикой, которой нет в открытом доступе. На её основе они смогут лучше понять социальные и экономические процессы в России и разработать собственные AI-решения для аналитики данных.
Направления для проектов:
🔘 AI-агент для анализа муниципальных и региональных данных, отвечающий на вопросы о различных показателях в стране. Например: «Где в малых городах самая высокая зарплата?»🔘 Инструменты для исследования данных по регионам и муниципалитетам: карты, графики, фильтры🔘 Обогащение датасетов вручную или из открытых источников: сбор, верификация, структурирование данных🔘 Дизайн, создание визуальных материалов на основе региональной статистики для статей, соцсетей и промо🔘 Дашборды на базе муниципальной статистики (Superset, Metabase, Grafana, Lightdash, Plotly и другие инструменты на выбор)🔘 Дата-истории — рассказы о трендах, проблемах и событиях регионов через текст, таблицы и визуализацию
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1💔1
Модели, которые «слышат» 🎧
Открываем серию постов про аудиомодальность — рассказываем, как AI учится понимать звук и зачем это нужно.
Что такое аудиомодальность?
👂 Речь, музыка, звуки окружающей среды — всё это можно анализировать или синтезировать с помощью нейросетей. Способность моделей работать со звуком как с основным типом входных данных называется аудиомодальностью. Такие модели предсказывают, каким фонемам (звукам в языке), целым словам или предложениям соответствуют те или иные акустические волны. Помните, в школе были разборы [сАстава] слов по звукам речи?
5️⃣ Особенности обучения:
🔘 Гигантские корпуса аудио, размеченных точными транскрипциями
🔘 Нормализация и очистка звука от шумов
✅ Как применяются?
🔘 Речь → Текст: голосовые помощники, расшифровка интервью, звонков, заседаний
🔘 Текст → Речь: озвучка книг и интерфейсов, генерация аудио для людей с нарушениями речи, локализация контента (автоперевод и озвучка голосом)
🔘 Анализ речи: диагностика заболеваний или определение эмоций клиента по голосу, оценка речевых навыков в приложениях для изучения языков
В следующих постах мы расскажем про класс открытых моделей для обработки звучащей речи GigaAm🎵
Пользовались аудиомодальными сервисами?
💯 — по работе
👍 — для развлечения
🤔 — что-то новенькое для меня
Открываем серию постов про аудиомодальность — рассказываем, как AI учится понимать звук и зачем это нужно.
Что такое аудиомодальность?
Для обработки и распознавания звука есть разные архитектуры, которые могут комбинироваться:
HMM (Hidden Markov Models)🎤 Классический метод. Делит звук на маленькие отрезки и определяет, какой фонеме они соответствуют. Хорошо работает для стабильной, чёткой речи.
DNN (Deep Neural Networks)🎤 Современные нейросети, которые лучше справляются с реальными условиями: шумом, акцентами, быстрой речью. DNN можно встроить в систему вместо HMM или использовать в связке с другой архитектурой: DNN предсказывает признаки, а HMM собирает их в последовательность.
End-to-End архитектуры🎤 Новый подход: модель сразу учится превращать звук в текст, минуя этапы фонем и ручного выделения признаков. Вместо того чтобы по частям анализировать звук, она «слушает» всё целиком и учится понимать на примерах. Часто основана на трансформерах или seq2seq-моделях.
В следующих постах мы расскажем про класс открытых моделей для обработки звучащей речи GigaAm
Пользовались аудиомодальными сервисами?
💯 — по работе
👍 — для развлечения
🤔 — что-то новенькое для меня
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7💯4❤1🔥1
AI в медицине: точность, значимость, будущее🫀
27 мая в офисе AIRI в Сити обсудим, как искусственный интеллект открывает новые подходы в медицине и меняет представление о клинической аналитике.
Большой семинар AIRI — это возможность для учёных, врачей и инженеров обсудить инновационные идеи и создать решения для реальных задач.
➡️ Регистрация по ссылке. Трансляция пройдет в VK Видео и на YouTube.
Увидимся на семинаре💚
27 мая в офисе AIRI в Сити обсудим, как искусственный интеллект открывает новые подходы в медицине и меняет представление о клинической аналитике.
📆 Лектор — Геннадий Коновалов, профессор, руководитель Центра диагностики и инновационных медицинских технологий🔘 Модератор — Иван Оселедец, профессор РАН, гендиректор AIRI
Большой семинар AIRI — это возможность для учёных, врачей и инженеров обсудить инновационные идеи и создать решения для реальных задач.
Увидимся на семинаре
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5👏1
AI-инструменты, которые упростят жизнь разработчикам ⛺️
Найти текст в буфере обмена, составить конспект деловой встречи, поправить небольшой фрагмент кода — порой мелкие задачи занимают большую часть дня.
Собрали для вас AI-сервисы, которые помогут разгрузиться от рутины, чтобы вы могли создать что-нибудь великое🚀
Найти текст в буфере обмена, составить конспект деловой встречи, поправить небольшой фрагмент кода — порой мелкие задачи занимают большую часть дня.
Собрали для вас AI-сервисы, которые помогут разгрузиться от рутины, чтобы вы могли создать что-нибудь великое
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5🔥5