Технозаметки Малышева

S-LoRA ускоряет масштабное использование LoRA адаптеров

- S-LoRA обеспечивает хранение и управление тысячами LoRA адаптеров в оперативной памяти и GPU.
- Система использует общий пул памяти для управления динамически меняющимися весами адаптеров и кэшированными тензорами.
- Внедрена новая стратегия параллельной обработки тензоров и оптимизированные CUDA ядра для ускорения вычислений.
- Эффективность S-LoRA в 4 раза выше по сравнению с существующими библиотеками, включая HuggingFace PEFT и vLLM.
- Разработка открывает двери для масштабного предоставления услуг индивидуализированной настройки моделей AI.

1000 адаптеров...

#S-LoRA #LoRA #CUDA

47 viewsedited 08:23

KVQuant: контекстное окно в 10 млн. токенов

KVQuant - новый метод квантования активаций кеша ключевых значений, сокращающий потребление памяти при выводе.

Цель - сохранить точность при уменьшении потребления памяти, позволяя работать с большими моделями на слабом оборудовании.
Например: сервис LLaMA-7B на одном GPU A100-80GB позволяет работать с 1 миллионом токенов, и до 10 миллионов токенов на системе с 8 GPU.

#KVQuant #LLM #CUDA

79 views05:51

Технозаметки Малышева

NVIDIA выпустила массовое обновление CUDA-библиотек

Более 400 специализированных библиотек ускоряют конкретные рабочие нагрузки в обработке данных, генеративном ИИ, рекомендательных системах и других сферах.

Новые библиотеки обеспечивают 10-кратное ускорение и снижение энергопотребления:
CPFD - 400x ускорение симуляций,
видеоконференции - 66x ускорение создания субтитров,
e-commerce - 33x ускорение рекомендательных систем.
Платформа NVIDIA Blackwell ускоряет обработку сжатых файлов в 18 раз.

За десятилетие эффективность вычислений NVIDIA AI выросла в 100 000 раз.

Многовекторность сингулярности.
Сумма технологий по Лему.
Т.е. не только процессоры становятся быстрее, но и библиотеки оптимизируются и Карпатый, вон GPT2 с нуля пересобирает на скорость (за 4 часа) https://www.youtube.com/watch?v=l8pRSuU81PU

#CUDA #Blackwell #NVidia
-------
@tsingular

👍7

1.36K viewsedited 05:01

Технозаметки Малышева

Forwarded from Анализ данных (Data analysis)

🚀 AI от Sakana AI пишет оптимизированный код для CUDA-ядрер для ускорения ИИ!

🔑 Основное:
AI CUDA Engineer — агентная система, которая автоматически создаёт высокооптимизированные CUDA-ядра, ускоряя операции машинного обучения в PyTorch в 10–100 раз.

CUDA-программирование сложное, требует глубоких знаний и часто кажется "алхимией". Эта система упрощает задачу, используя эволюционные алгоритмы и LLMs.
Уникальная идея — "Innovation Archive" (аналог "библиотеки навыков" из нашего проекта Voyager для Minecraft), где LLM сохраняет лучшие фрагменты кода, найденные в процессе эволюционного поиска.

Это идеальный пример AutoML: максимальная отдача от вычислительных ресурсов, делая ИИ быстрее и эффективнее.
Великолепная работа, Sakana AI!

Также интересно, что NVIDIA параллельно работает над схожими исследованиями по улучшению CUDA-ядер с помощью мощных LLM.
#AI #MachineLearning #CUDA #AutoML

▪Paper: https://pub.sakana.ai/ai-cuda-engineer/paper/
▪Kernel Archive Webpage: https://pub.sakana.ai/ai-cuda-engineer/
▪HuggingFace Dataset: https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive

@data_analysis_ml

✍6

786 views06:07

Технозаметки Малышева

Forwarded from Machinelearning

🌟

NVIDIA добавила нативную поддержку Python в CUDA.

Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.

Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».

Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.

Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.

🟢Во-первых, появилась библиотека cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта.

🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей.

🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности.

Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.

Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.

Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.

🔜

Посмотреть полную презентацию на GTC 2025

@ai_machinelearning_big_data

#AI #ML #Python #CUDA #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍3🆒1

1.15K views07:30

About

Blog

Apps

Platform