Этот практический гайд по статистике на Python - ваш надёжный проводник в мир анализа, визуализации и интерпретации данных.
От простых описательных показателей до регрессий и временных рядов — с примерами, кодом и реальными задачами. Всё, что нужно, чтобы уверенно применять статистику на практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
💘1
Как за 15 минут сделать бизнес-описание всей базы данных и BI-отчетности с помощью ИИ 🤖
Когда документация устаревает, аналитика перестает работать. Метаданные разбросаны, отчеты описываются вручную, а поиск нужной таблицы превращается в квест.
📆 25 ноября в 11:00 (МСК) приглашаем на бесплатный онлайн-вебинар с Павлом Хамриным (Lasmart).
Разберем:
— почему документация по данным всегда отстает от реальности;
— как AI помогает описывать таблицы, отчеты и процедуры за минуты;
— как «научить» модель понимать корпоративные термины;
— как DataDesc автоматизирует документацию и интегрируется с data-catalog.
👨💻 Кому будет полезно: data-инженерам, аналитикам, архитекторам DWH, BI-руководителям — и всем, кто отвечает за достоверность данных.
Павел Хамрин — руководитель направления AI в Lasmart. Более 10 лет опыта во внедрении аналитических решений: DWH, OLAP и BI-систем. В компании отвечает за развитие продуктов в области автоматизации работы с данными и AI-документации.
🎁 Бонус всем участникам: сравнение ИИ-моделей для формирования документации.
📎 Ссылка на регистрацию
Реклама. ООО "ЛАСМАРТ"
ИНН 7814186283. erid: 2VtzqvQcAob
Когда документация устаревает, аналитика перестает работать. Метаданные разбросаны, отчеты описываются вручную, а поиск нужной таблицы превращается в квест.
📆 25 ноября в 11:00 (МСК) приглашаем на бесплатный онлайн-вебинар с Павлом Хамриным (Lasmart).
Разберем:
— почему документация по данным всегда отстает от реальности;
— как AI помогает описывать таблицы, отчеты и процедуры за минуты;
— как «научить» модель понимать корпоративные термины;
— как DataDesc автоматизирует документацию и интегрируется с data-catalog.
👨💻 Кому будет полезно: data-инженерам, аналитикам, архитекторам DWH, BI-руководителям — и всем, кто отвечает за достоверность данных.
Павел Хамрин — руководитель направления AI в Lasmart. Более 10 лет опыта во внедрении аналитических решений: DWH, OLAP и BI-систем. В компании отвечает за развитие продуктов в области автоматизации работы с данными и AI-документации.
🎁 Бонус всем участникам: сравнение ИИ-моделей для формирования документации.
📎 Ссылка на регистрацию
Реклама. ООО "ЛАСМАРТ"
ИНН 7814186283. erid: 2VtzqvQcAob
Forwarded from Machinelearning
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с
torch.compile.Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вышел новый ИИ-учёный от легендарного Эндрю Ына, сооснователя Coursera и преподавателя Стэнфорда.
Он делает точнейшие исследования уровня PhD по любой теме.
• Проверяет даже целую диссертацию за секунды — находит ошибки, недочёты, проверяет факты, ссылки и оформление по требованиям вашего университета. Научрук примет работу без мучений, а вы забудете про бесконечные правки.
• ИИ-агент максимально «живой» — работает так, будто это дотошный профессор, который правит всё до последней буквы.
• Итог — пишете быстрее, успеваете больше, и можете публиковаться чаще. Больше никаких месяцев ожидания рецензии — он проверяет и «принимает» работу мгновенно.
https://paperreview.ai/
Он делает точнейшие исследования уровня PhD по любой теме.
• Проверяет даже целую диссертацию за секунды — находит ошибки, недочёты, проверяет факты, ссылки и оформление по требованиям вашего университета. Научрук примет работу без мучений, а вы забудете про бесконечные правки.
• ИИ-агент максимально «живой» — работает так, будто это дотошный профессор, который правит всё до последней буквы.
• Итог — пишете быстрее, успеваете больше, и можете публиковаться чаще. Больше никаких месяцев ожидания рецензии — он проверяет и «принимает» работу мгновенно.
https://paperreview.ai/
❤3🔥1
Forwarded from Machinelearning
📊 Google стала главным двигателем роста S&P 500 в 2025 году
Alphabet в одиночку дала 19.4% всего роста S&P 500, это около $1.3 трлн рыночной капитализации.
Nvidia добавила 16.0% еще $1.05 трлн, индекс теперь почти напрямую следует за AI гигантами.
Broadcom и Microsoft внесли 7.8% и 5.7%, а остальные компании из топ 10 еще 10.6%.
Итог: топ 10 компаний показывают 59.4% всего роста рынка тогда как остальные 490 лишь 40.6%.
S&P 500 все меньше отражает состояние экономики и все больше коррелирует с узким сегментом крупнейших AI корпораций.
https://x.com/KobeissiLetter/status/1993359777062436902
@ai_machinelearning_big_data
Alphabet в одиночку дала 19.4% всего роста S&P 500, это около $1.3 трлн рыночной капитализации.
Nvidia добавила 16.0% еще $1.05 трлн, индекс теперь почти напрямую следует за AI гигантами.
Broadcom и Microsoft внесли 7.8% и 5.7%, а остальные компании из топ 10 еще 10.6%.
Итог: топ 10 компаний показывают 59.4% всего роста рынка тогда как остальные 490 лишь 40.6%.
S&P 500 все меньше отражает состояние экономики и все больше коррелирует с узким сегментом крупнейших AI корпораций.
https://x.com/KobeissiLetter/status/1993359777062436902
@ai_machinelearning_big_data
❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ PANDAS-ТРЮК
Если нужно быстро найти дубликаты, но сразу увидеть, *чем* именно строки отличаются — используй сравнение через groupby + nunique.
Это позволяет ловить «почти одинаковые» строки без сложных проверок.
Если нужно быстро найти дубликаты, но сразу увидеть, *чем* именно строки отличаются — используй сравнение через groupby + nunique.
Это позволяет ловить «почти одинаковые» строки без сложных проверок.
import pandas as pd
df = pd.DataFrame({
"name": ["Tom", "Tom", "Alice", "Alice"],
"age": [25, 25, 30, 31],
"city": ["NY", "NY", "LA", "LA"]
})
diff = (df
.groupby("name")
.nunique()
.reset_index())
print(diff)
# Показывает, какие поля у одинаковых ключей различаются
👍3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Подключение ИИ-инструментов к рабочим процессам разработки открывает новый вектор атак. Проблема затрагивает Gemini CLI, Claude Code и OpenAI Codex.
Механизм взлома основан на внедрении скрытых инструкций в issues, пулл-реквесты или коммиты. Когда агент считывает этот текст для анализа, он может ошибочно интерпретировать его как прямую команду, а не как пассивные данные.
Тестирование, проведенное Aikido Security показало, что уязвимость актуальна как минимум для 5 компаний из списка Fortune 500. Google оперативно устранила брешь в Gemini CLI, однако эксперты настоятельно рекомендуют инженерам ограничивать полномочия ИИ-агентов и внедрять строгую валидацию входных данных.
aikido.dev
Google Research анонсировала Titans — новую архитектуру, которая решает проблему эффективности обработки огромных массивов данных. Фишка - в механизме «глубокой обучаемой памяти», которая обновляется непосредственно в процессе инференса, превращая работу сети в непрерывный цикл онлайн-обучения.
Вместо сохранения всего контекста Titans использует градиенты как индикатор неожиданности: модель запоминает только те токены, которые несут новую информацию и отсеивает предсказуемые данные. Это позволяет поддерживать контекстные окна объемом более 2 млн. токенов при сохранении линейной скорости вычислений, свойственной RNN.
В тестах на длинный контекст и ризонинг архитектура обошла по производительности Transformer++ и Mamba 2.
research.google
OpenRouter совместно с фондом a16z опубликовали исследование «State of AI», основанное на анализе 100 триллионов обработанных токенов. Главный инсайт — рост популярности рассуждающих моделей: во второй половине 2025 они уже генерируют половину всего трафика платформы.
Драйвером индустрии остается разработка ПО: на задачи по написанию и отладке кода приходится более 50% всех запросов. Одновременно растет доля open-source решений, открытые модели занимают уже треть рынка, локомотивами выступают китайские DeepSeek и Qwen.
Эксперты прогнозируют скорый переход к прокси-инференсу, когда сложные задачи будут автоматически распределяться между несколькими специализированными моделями.
openrouter.ai
Техногигант приобрел компанию Limitless (ранее Rewind), создателя умного кулона, который записывает, транскрибирует и индексирует разговоры пользователя в реальном времени.
Устройство Limitless позиционировалось как аппаратный «расширитель памяти», позволяющий мгновенно находить информацию в прошлых диалогах. Это направление сейчас переживает бум: ранее стартап привлек более $33 млн. инвестиций, в том числе от фонда a16z и Сэма Альтмана.
Согласно заявлению, продажи устройств Limitless новым клиентам будут прекращены. Текущие владельцы гаджетов продолжат получать поддержку, но для дальнейшего использования сервиса им придется принять новые условия конфиденциальности.
reuters.com
MIT представила устройство размером с насекомое. В основе разработки лежат мягкие приводы и двухуровневый ИИ-контроллер, объединяющий методы предиктивного планирования и имитационного обучения. Такая архитектура позволяет роботу мгновенно адаптироваться к внешним возмущениям.
На тестах микро-бот показал уверенную маневренность, выполнив 10 непрерывных сальто за 11 секунд в условиях сильных порывов ветра. Проект планирует создавать автономные рои для поисково-спасательных миссий: благодаря миниатюрным размерам и ударопрочности, они смогут проникать в узкие расщелины завалов при ЧС.
Следующим этапом станет интеграция бортовых камер и сенсоров для полноценной навигации вне помещений.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🖼️ EditThinker: теперь редакторы изображений могут «думать» итеративно!
Новая рамка от Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.
EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.
📌 Liquid AI представила LFM2 - семейство Liquid Foundation Models (350M–8.3B), оптимизированное для работы на устройствах: до 2× быстрее на CPU при префилле и декоде, при этом показывает сильные результаты на бенчмарках. Подходит для edge-приложений с ограниченной памятью.
https://huggingface.co/papers/2512.05965
Новая рамка от Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.
EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.
📌 Liquid AI представила LFM2 - семейство Liquid Foundation Models (350M–8.3B), оптимизированное для работы на устройствах: до 2× быстрее на CPU при префилле и декоде, при этом показывает сильные результаты на бенчмарках. Подходит для edge-приложений с ограниченной памятью.
https://huggingface.co/papers/2512.05965
❤2
🚀 Model Context Protocol (MCP) - протокол, который с самого начала развивался открыто, делает большой шаг.
Теперь MCP официально переходит под крыло Linux Foundation.
Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.
https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
Теперь MCP официально переходит под крыло Linux Foundation.
Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.
https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
❤3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
ARC Prize зафиксировали рекорд GPT-5.2 Pro (X-High). Модель достигла точности 90,5% при стоимости вычислений $11,64 за задачу. Тесты ARC-AGI - это уникальные задачи, требующие навыков обобщения и логики, что исключает возможность запоминания паттернов из обучающей выборки.
Несмотря на успех, экономика процесса пока отстает от идеала. Стоимость решения одной задачи все еще в 58 раз превышает целевой показатель бенчмарка ($0,20), а до человеческого уровня (100% точности) сохраняется разрыв. На более сложном наборе ARC-AGI-2 модель показала результат 54,2%.
ARC Prize в сети Х
Спецификация Really Simple Licensing (RSL), позволяющая издателям диктовать условия лицензирования для ИИ-краулеров, получила статус официального стандарта. Технически, это расширение файла
robots.txt, которое дает возможность указывать правила компенсации за парсинг контента.RSL получил поддержку со стороны гигантов: стандарт внедрили Cloudflare, Akamai и Fastly. Это превращает RSL из простой декларации в рабочий механизм — провайдеры смогут блокировать на уровне CDN тех ботов, которые игнорируют условия лицензии.
Еще одна важная особенность версии 1.0 — гранулярный контроль видимости. Теперь ресурсы могут запретить использование своих материалов в генеративных ответах, сохраняя при этом позиции в классической поисковой выдаче.
rslstandard.org
Компании объявили о соглашении, которое меняет правила игры в сфере авторского права в ИИ. Начиная со следующего года, Sora сможет официально использовать образы Микки Мауса, Йоды и других героев студии. В рамках сделки Disney получает долю в OpenAI размером в $1 млрд, а ее инженеры - приоритетный доступ к API ChatGPT для внутренних разработок.
Для Disney, известной своей жесткой позицией по защите авторских прав это стратегический разворот. Вместо безуспешных попыток полностью запретить генерацию своих персонажей, корпорация решила возглавить процесс и монетизировать его.
Стороны обещают внедрить жесткие фильтры безопасности, а на Disney+ появится раздел с фанатскими видео, созданными в Sora.
openai.com
DeepMind представила апдейт для моделей синтеза речи Gemini Flash TTS и Pro TTS, заменяющий майские версии этого года. Разделение по задачам осталось прежним: Flash для real-time приложений, а Pro - для максимального качества.
Теперь модели жестче придерживаются системных промптов, задающих тон, настроение и ролевую модель спикера. Добавили контекстно-зависимое управление темпом: алгоритм автоматически замедляет речь на плотной информации и ускоряется там, где это уместно, либо строго следует явно заданным таймингам.
Также инженеры стабилизировали работу мульти-спикерных диалогов: голоса собеседников больше не «плывут» и остаются четко различимыми.
blog.google
Компания опубликовала исследование об эволюции взаимодействия с ИИ-ассистентом за последний год. Данные показывают смену аудитории: если в январе среди запросов доминировало программирование, то к концу года вектор сместился в сторону социальных тем. Это подтверждает выход технологии в мейнстрим - пользователи всё чаще видят в ИИ не просто умный поиск, а полноценного советчика.
Отчет также подсвечивает зависимость запросов от контекста. Мобильные устройства закрепили за собой роль карманных консультантов по здоровью и психологии. Время суток тоже влияет на содержание: глубокой ночью растет доля философских и экзистенциальных бесед.
Для разработчиков эти метрики важны: следующее поколение ассистентов должно уметь адаптироваться не только под текст запроса, но и под устройство и время обращения.
microsoft.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🚀 Parallax Runtime: GPU Acceleration for C++ Algorithms
Parallax Runtime позволяет автоматически ускорять параллельные алгоритмы C++ на любых GPU с поддержкой Vulkan без изменения кода. Это решение исключает зависимость от конкретных вендоров и CUDA, обеспечивая универсальную производительность.
🚀 Основные моменты:
- - Поддержка всех GPU с Vulkan 1.2+
- - Умное управление памятью с синхронизацией
- - Низкие накладные расходы благодаря прямому доступу к Vulkan
- - Открытый исходный код (Apache 2.0)
📌 GitHub: https://github.com/parallax-compiler/parallax-runtime
#cpp
Parallax Runtime позволяет автоматически ускорять параллельные алгоритмы C++ на любых GPU с поддержкой Vulkan без изменения кода. Это решение исключает зависимость от конкретных вендоров и CUDA, обеспечивая универсальную производительность.
🚀 Основные моменты:
- - Поддержка всех GPU с Vulkan 1.2+
- - Умное управление памятью с синхронизацией
- - Низкие накладные расходы благодаря прямому доступу к Vulkan
- - Открытый исходный код (Apache 2.0)
📌 GitHub: https://github.com/parallax-compiler/parallax-runtime
#cpp
❤1👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🗣 Новая линейка Qwen3-TTS: VoiceDesign и VoiceClone
Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.
VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.
Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках
Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером
VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.
Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
• Qwen Chat: https://chat.qwen.ai
• Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo
@ai_machinelearning_big_data
#AI #TTS #voicecloning
Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.
VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.
Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках
Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером
VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.
Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
• Qwen Chat: https://chat.qwen.ai
• Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo
@ai_machinelearning_big_data
#AI #TTS #voicecloning
Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.
🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮
В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.
Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.
🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1😁1🤮1
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
❤3👍1
В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.
TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.
Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.
Почему это работает:
- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;
- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;
- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;
- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.
Результаты впечатляют:
- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);
- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).
Цена вопроса: дополнительное обучение.
Но цель очевидна: сделать генерацию почти в реальном времени.
Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🤔1