🚀 Flashmla от deepeseek
DeepSeek представил MLA – революционное ускорение инференса LLM
DeepSeek выпустил свою реализацию MLA (Multi-head Latent Attention), которая значительно ускоряет работу больших языковых моделей (LLM) и существенно снижает требования к памяти. Вот как это работает:
Что такое MLA?
MLA – это инновационный механизм внимания, который использует технику «low-rank joint compression» для сжатия матриц «ключей» (K) и «значений» (V). Благодаря этому подходу достигается:
Снижение использования памяти до 93.3%: сжатие позволяет уменьшить объем данных, которые нужно хранить для каждого слоя внимания.
Увеличение пропускной способности до 5.76 раз: особенно заметно на длинных контекстах, где традиционные методы сталкиваются с проблемами масштабирования.
Основные принципы работы MLA
MLA впервые был представлен в публикации DeepSeek AI V2, где также описывалась их архитектура Mixture-of-Experts. Ключевые этапы работы метода «low-rank joint compression» MLA включают:
1️⃣ Проекция в латентное пространство:
Вместо хранения полных матриц K и V для каждой «головы» внимания, они проецируются в общее, низкоразмерное латентное пространство. Это позволяет существенно сократить объем необходимых данных.
2️⃣ Обучаемые латентные векторы:
MLA вводит набор обучаемых латентных векторов, число которых значительно меньше, чем размеры исходных матриц K и V. Эти векторы служат своего рода «ядром», которое хранит сжатую информацию.
3️⃣ Нелинейная проекция:
Ключи и значения проецируются в латентное пространство с использованием нелинейной функции, которая обучается вместе с моделью. Это позволяет адаптивно подбирать оптимальное сжатие в зависимости от задачи.
4️⃣ Восстановление «по требованию»:
При вычислении коэффициентов внимания происходит динамическое восстановление приближенных матриц K и V из сохраненных латентных векторов. Важно, что восстановление выполняется «по требованию», только для необходимых токенов, что экономит вычислительные ресурсы.
Техническая поддержка и оптимизация
DeepSeek также представил open-source CUDA ядра, оптимизированные для NVIDIA Hopper GPUs, что обеспечивает высокую производительность MLA на современном оборудовании. Ознакомиться с кодом и начать использовать оптимизированные ядра можно по ссылке: FlashMLA на GitHub.
https://github.com/deepseek-ai/FlashMLA
@data_analysis_ml
DeepSeek представил MLA – революционное ускорение инференса LLM
DeepSeek выпустил свою реализацию MLA (Multi-head Latent Attention), которая значительно ускоряет работу больших языковых моделей (LLM) и существенно снижает требования к памяти. Вот как это работает:
Что такое MLA?
MLA – это инновационный механизм внимания, который использует технику «low-rank joint compression» для сжатия матриц «ключей» (K) и «значений» (V). Благодаря этому подходу достигается:
Снижение использования памяти до 93.3%: сжатие позволяет уменьшить объем данных, которые нужно хранить для каждого слоя внимания.
Увеличение пропускной способности до 5.76 раз: особенно заметно на длинных контекстах, где традиционные методы сталкиваются с проблемами масштабирования.
Основные принципы работы MLA
MLA впервые был представлен в публикации DeepSeek AI V2, где также описывалась их архитектура Mixture-of-Experts. Ключевые этапы работы метода «low-rank joint compression» MLA включают:
1️⃣ Проекция в латентное пространство:
Вместо хранения полных матриц K и V для каждой «головы» внимания, они проецируются в общее, низкоразмерное латентное пространство. Это позволяет существенно сократить объем необходимых данных.
2️⃣ Обучаемые латентные векторы:
MLA вводит набор обучаемых латентных векторов, число которых значительно меньше, чем размеры исходных матриц K и V. Эти векторы служат своего рода «ядром», которое хранит сжатую информацию.
3️⃣ Нелинейная проекция:
Ключи и значения проецируются в латентное пространство с использованием нелинейной функции, которая обучается вместе с моделью. Это позволяет адаптивно подбирать оптимальное сжатие в зависимости от задачи.
4️⃣ Восстановление «по требованию»:
При вычислении коэффициентов внимания происходит динамическое восстановление приближенных матриц K и V из сохраненных латентных векторов. Важно, что восстановление выполняется «по требованию», только для необходимых токенов, что экономит вычислительные ресурсы.
Техническая поддержка и оптимизация
DeepSeek также представил open-source CUDA ядра, оптимизированные для NVIDIA Hopper GPUs, что обеспечивает высокую производительность MLA на современном оборудовании. Ознакомиться с кодом и начать использовать оптимизированные ядра можно по ссылке: FlashMLA на GitHub.
https://github.com/deepseek-ai/FlashMLA
@data_analysis_ml
GitHub
GitHub - deepseek-ai/FlashMLA: FlashMLA: Efficient MLA kernels
FlashMLA: Efficient MLA kernels. Contribute to deepseek-ai/FlashMLA development by creating an account on GitHub.
❤9👍4🔥2🤣2🥰1
AWS Badrock готовятся разместить новую версию Sonnet 3.7, которая, скорее всего, будет анонсирована сегодня во время мероприятия Amazon.
* Модель в настоящее время скрыта и не отображается в пользовательском интерфейсе
Инсайдеры раскопали, что модель достигает SOTA в кодинге, агентных способностях, сложном рассуждении и генерации контента.
Благодаря высокой производительности и контролю над скоростью работы, Claude 3.7 Sonnet заточена для реализации AI-агентов и комплексных AI-решений.
Источник: https://archive.is/BkvLb
@data_analysis_ml - подпистаться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍10❤5
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍7🥰1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6🥰2
⚡️ DeepSeek-R1-FP4 от NVIDIA привлекает внимание тем, что сочетает в себе передовые идеи для быстрого и эффективного поиска по мультимедийному контенту.
Главное, что здесь сделано по-новому — это применение 4-битной точности (FP4) для представления данных.
Такая оптимизация позволяет существенно снизить затраты памяти и ускорить вычислительный процесс, что особенно важно при работе с огромными массивами изображений или видео.
Суть подхода в том, что система сначала «вчитывается» в контент, извлекая из него ключевые признаки, а затем преобразует их в компактные векторные представления.
Эти векторы отражают глубокую семантику, а не просто поверхностные характеристики, поэтому поиск становится более осмысленным. При запросе система сравнивает вектор, соответствующий запросу, с уже сохранёнными представлениями, находя наиболее похожие и релевантные результаты.
Такой метод особенно интересен для приложений, где необходимо работать с мультимодальными данными — будь то поиск похожих сцен в видеоархивах или сопоставление изображений с текстовыми описаниями. Оптимизация под современные аппаратные решения от NVIDIA делает эту модель подходящей для интеграции в реальные системы, где скорость и эффективность поиска играют ключевую роль.
В общем, DeepSeek-R1-FP4 — это пример того, как современные технологии позволяют не только повысить качество поиска, но и сделать его более доступным с точки зрения вычислительных ресурсов.
huggingface.co/nvidia/DeepSeek-R1-FP4
Главное, что здесь сделано по-новому — это применение 4-битной точности (FP4) для представления данных.
Такая оптимизация позволяет существенно снизить затраты памяти и ускорить вычислительный процесс, что особенно важно при работе с огромными массивами изображений или видео.
Суть подхода в том, что система сначала «вчитывается» в контент, извлекая из него ключевые признаки, а затем преобразует их в компактные векторные представления.
Эти векторы отражают глубокую семантику, а не просто поверхностные характеристики, поэтому поиск становится более осмысленным. При запросе система сравнивает вектор, соответствующий запросу, с уже сохранёнными представлениями, находя наиболее похожие и релевантные результаты.
Такой метод особенно интересен для приложений, где необходимо работать с мультимодальными данными — будь то поиск похожих сцен в видеоархивах или сопоставление изображений с текстовыми описаниями. Оптимизация под современные аппаратные решения от NVIDIA делает эту модель подходящей для интеграции в реальные системы, где скорость и эффективность поиска играют ключевую роль.
В общем, DeepSeek-R1-FP4 — это пример того, как современные технологии позволяют не только повысить качество поиска, но и сделать его более доступным с точки зрения вычислительных ресурсов.
huggingface.co/nvidia/DeepSeek-R1-FP4
❤10👍5🔥2🐳2
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤6🔥2
Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.
Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.
В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤7🔥1
Media is too big
VIEW IN TELEGRAM
При такой скорости развития.год роботы будут в наших домах в ближайшее время.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥1😁1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍6🔥4
На Habr вышла статья от разработчиков Sber AI и AIRI про свежее open-source решение по переносу головы на изображениях.
Авторы рассказали, как GHOST 2.0 решает задачу headswap без видимых артефактов, сохраняя реалистичность и соответствие геометрии исходного лица. Важный этап обработки – использование Kandinsky 2.2, который упрощает адаптацию данных перед финальной генерацией.
Среди других особенностей:
• Улучшенный контроль за точностью замены головы;
• Минимизация искажений при переносе текстур;
• Полный open-source: код доступен для экспериментов и интеграции.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍8❤6😁2
This media is not supported in your browser
VIEW IN TELEGRAM
На разработку ушло менее 24 часов, и выглядит он вполне приятно!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥9🤔4❤3😁3🤯3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Напишите в комментариях - какой генератор используете вы.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6🔥5
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤8🔥2
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4👍2🥰1
⚡ Verl – Volcano Engine Reinforc
ement Learning for LLMs
Проект, объединяющий методы обучения с подкреплением для улучшения работы языковых моделей.
Отличается экспериментальным подходом и перспективой интеграции с популярными LLM.
▪Github
@data_analysis_ml
ement Learning for LLMs
Проект, объединяющий методы обучения с подкреплением для улучшения работы языковых моделей.
Отличается экспериментальным подходом и перспективой интеграции с популярными LLM.
▪Github
@data_analysis_ml
❤8👍4🔥2🥴2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Google неожиданно представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.
Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.
Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.
Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.
В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
📌 Попробовать можно здесь
@data_analysis_ml
Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.
Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.
Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.
В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
📌 Попробовать можно здесь
@data_analysis_ml
❤25🔥11👍6👌4🥰3😁1🤨1
Австралийская компания Cortical Labs представила первый в мире биологический компьютер, объединяющий клетки человеческого мозга с кремниевыми чипами.
Эта система, известная как синтетический биологический интеллект ( SBI) , позволяет формировать динамические нейронные сети, которые обучаются быстрее и более гибко, чем традиционные системы искусственного интеллекта.
Официальная презентация CL1 состоялась в Барселоне 2 марта 2025 года. Ожидается, что он поступит в продажу во второй половине 2025 года.
Технология основана на предыдущем исследовании, в ходе которого 800 000 человеческих и нейроно мышей на чипе были обучены игре в видеоигру Pong.
Теперь CL1 предоставляет платформу, которая позволяет исследователям использовать эту технологию без специализированного оборудования или программного обеспечения. Клиенты могут либо приобрести CL1, либо получить к нему доступ через Cortical Cloud для работы с культивируемыми клетками.
Потенциальные области применения CL1 варьируются от исследований лекарственных препаратов и клинических испытаний до разработки интеллектуальной робототехники.
Система энергоэффективна и не требует внешнего компьютера для управления. Разработчики подчеркивают, что SBI более естественна, чем обычный ИИ, поскольку основана на биологических нейронах, которые также являются основой человеческого интеллекта.
Появление CL1 знаменует собой значительный прогресс в слиянии биологии и технологий и может иметь далеко идущие последствия для различных областей науки и медицины.
Это происходит: человек и машина сливаются. Курцвейл был прав!
Австралийская компания Cortical Labs представила первый в мире биологический компьютер, объединяющий клетки человеческого мозга с кремниевым оборудованием.
Эта система, известная как синтетический биологический интеллект ( SBI) , позволяет формировать динамические нейронные сети, которые обучаются быстрее и более гибко, чем традиционные системы искусственного интеллекта.
Официальная презентация CL1 состоялась в Барселоне 2 марта 2025 года. Ожидается, что он поступит в продажу во второй половине 2025 года.
Технология основана на предыдущем исследовании, в ходе которого 800 000 человеческих и мышиных нейронов на чипе были обучены игре в видеоигру Pong.
Теперь CL1 предоставляет платформу, которая позволяет исследователям использовать эту технологию без специализированного оборудования или программного обеспечения. Клиенты могут либо приобрести CL1, либо получить к нему доступ через Cortical Cloud для работы с культивируемыми клетками.
Потенциальные области применения CL1 варьируются от исследований лекарственных препаратов и клинических испытаний до разработки интеллектуальной робототехники.
Система энергоэффективна и не требует внешнего компьютера для управления. Разработчики подчеркивают, что SBI более естественна, чем обычный ИИ, поскольку основана на биологических нейронах, которые также являются основой человеческого интеллекта.
Появление CL1 знаменует собой значительный прогресс в слиянии биологии и технологий и может иметь далеко идущие последствия для различных областей науки и медицины.
https://newatlas.com/brain/cortical-bioengineered-intelligence/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16😱8❤4🤔2🔥1