S-LoRA ускоряет масштабное использование LoRA адаптеров
- S-LoRA обеспечивает хранение и управление тысячами LoRA адаптеров в оперативной памяти и GPU.
- Система использует общий пул памяти для управления динамически меняющимися весами адаптеров и кэшированными тензорами.
- Внедрена новая стратегия параллельной обработки тензоров и оптимизированные CUDA ядра для ускорения вычислений.
- Эффективность S-LoRA в 4 раза выше по сравнению с существующими библиотеками, включая HuggingFace PEFT и vLLM.
- Разработка открывает двери для масштабного предоставления услуг индивидуализированной настройки моделей AI.
1000 адаптеров...
#S-LoRA #LoRA #CUDA
- S-LoRA обеспечивает хранение и управление тысячами LoRA адаптеров в оперативной памяти и GPU.
- Система использует общий пул памяти для управления динамически меняющимися весами адаптеров и кэшированными тензорами.
- Внедрена новая стратегия параллельной обработки тензоров и оптимизированные CUDA ядра для ускорения вычислений.
- Эффективность S-LoRA в 4 раза выше по сравнению с существующими библиотеками, включая HuggingFace PEFT и vLLM.
- Разработка открывает двери для масштабного предоставления услуг индивидуализированной настройки моделей AI.
1000 адаптеров...
#S-LoRA #LoRA #CUDA
KVQuant: контекстное окно в 10 млн. токенов
KVQuant - новый метод квантования активаций кеша ключевых значений, сокращающий потребление памяти при выводе.
Цель - сохранить точность при уменьшении потребления памяти, позволяя работать с большими моделями на слабом оборудовании.
Например: сервис LLaMA-7B на одном GPU A100-80GB позволяет работать с 1 миллионом токенов, и до 10 миллионов токенов на системе с 8 GPU.
#KVQuant #LLM #CUDA
KVQuant - новый метод квантования активаций кеша ключевых значений, сокращающий потребление памяти при выводе.
Цель - сохранить точность при уменьшении потребления памяти, позволяя работать с большими моделями на слабом оборудовании.
Например: сервис LLaMA-7B на одном GPU A100-80GB позволяет работать с 1 миллионом токенов, и до 10 миллионов токенов на системе с 8 GPU.
#KVQuant #LLM #CUDA
NVIDIA выпустила массовое обновление CUDA-библиотек
Более 400 специализированных библиотек ускоряют конкретные рабочие нагрузки в обработке данных, генеративном ИИ, рекомендательных системах и других сферах.
Новые библиотеки обеспечивают 10-кратное ускорение и снижение энергопотребления:
CPFD - 400x ускорение симуляций,
видеоконференции - 66x ускорение создания субтитров,
e-commerce - 33x ускорение рекомендательных систем.
Платформа NVIDIA Blackwell ускоряет обработку сжатых файлов в 18 раз.
За десятилетие эффективность вычислений NVIDIA AI выросла в 100 000 раз.
Многовекторность сингулярности.
Сумма технологий по Лему.
Т.е. не только процессоры становятся быстрее, но и библиотеки оптимизируются и Карпатый, вон GPT2 с нуля пересобирает на скорость (за 4 часа) https://www.youtube.com/watch?v=l8pRSuU81PU
#CUDA #Blackwell #NVidia
-------
@tsingular
Более 400 специализированных библиотек ускоряют конкретные рабочие нагрузки в обработке данных, генеративном ИИ, рекомендательных системах и других сферах.
Новые библиотеки обеспечивают 10-кратное ускорение и снижение энергопотребления:
CPFD - 400x ускорение симуляций,
видеоконференции - 66x ускорение создания субтитров,
e-commerce - 33x ускорение рекомендательных систем.
Платформа NVIDIA Blackwell ускоряет обработку сжатых файлов в 18 раз.
За десятилетие эффективность вычислений NVIDIA AI выросла в 100 000 раз.
Многовекторность сингулярности.
Сумма технологий по Лему.
Т.е. не только процессоры становятся быстрее, но и библиотеки оптимизируются и Карпатый, вон GPT2 с нуля пересобирает на скорость (за 4 часа) https://www.youtube.com/watch?v=l8pRSuU81PU
#CUDA #Blackwell #NVidia
-------
@tsingular
👍7
Forwarded from Анализ данных (Data analysis)
🚀 AI от Sakana AI пишет оптимизированный код для CUDA-ядрер для ускорения ИИ!
🔑 Основное:
AI CUDA Engineer — агентная система, которая автоматически создаёт высокооптимизированные CUDA-ядра, ускоряя операции машинного обучения в PyTorch в 10–100 раз.
CUDA-программирование сложное, требует глубоких знаний и часто кажется "алхимией". Эта система упрощает задачу, используя эволюционные алгоритмы и LLMs.
Уникальная идея — "Innovation Archive" (аналог "библиотеки навыков" из нашего проекта Voyager для Minecraft), где LLM сохраняет лучшие фрагменты кода, найденные в процессе эволюционного поиска.
Это идеальный пример AutoML: максимальная отдача от вычислительных ресурсов, делая ИИ быстрее и эффективнее.
Великолепная работа, Sakana AI!
Также интересно, что NVIDIA параллельно работает над схожими исследованиями по улучшению CUDA-ядер с помощью мощных LLM.
#AI #MachineLearning #CUDA #AutoML
▪Paper: https://pub.sakana.ai/ai-cuda-engineer/paper/
▪Kernel Archive Webpage: https://pub.sakana.ai/ai-cuda-engineer/
▪HuggingFace Dataset: https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive
@data_analysis_ml
🔑 Основное:
AI CUDA Engineer — агентная система, которая автоматически создаёт высокооптимизированные CUDA-ядра, ускоряя операции машинного обучения в PyTorch в 10–100 раз.
CUDA-программирование сложное, требует глубоких знаний и часто кажется "алхимией". Эта система упрощает задачу, используя эволюционные алгоритмы и LLMs.
Уникальная идея — "Innovation Archive" (аналог "библиотеки навыков" из нашего проекта Voyager для Minecraft), где LLM сохраняет лучшие фрагменты кода, найденные в процессе эволюционного поиска.
Это идеальный пример AutoML: максимальная отдача от вычислительных ресурсов, делая ИИ быстрее и эффективнее.
Великолепная работа, Sakana AI!
Также интересно, что NVIDIA параллельно работает над схожими исследованиями по улучшению CUDA-ядер с помощью мощных LLM.
#AI #MachineLearning #CUDA #AutoML
▪Paper: https://pub.sakana.ai/ai-cuda-engineer/paper/
▪Kernel Archive Webpage: https://pub.sakana.ai/ai-cuda-engineer/
▪HuggingFace Dataset: https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive
@data_analysis_ml
✍6
Forwarded from Machinelearning
Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.
Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».
Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.
Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.
cuPyNumeric
— аналог NumPy
, который переносит вычисления с CPU на GPU буквально заменой импорта.Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.
Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.
Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.
@ai_machinelearning_big_data
#AI #ML #Python #CUDA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3🆒1