C++ Academy
16.5K subscribers
637 photos
129 videos
1 file
593 links
По всем вопросам- @haarrp

@itchannels_telegram - 🔥 best it channels

РКН: clck.ru/3FmxJF
Download Telegram
Forwarded from Machinelearning
🌟 Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. .

Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.


Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.

🟢На первом этапе система училась писать корректный и компилируемый CUDA-код.

Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.

🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные.

🟢Самое интересное - третий этап.

Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:

🟠Почему kernel_v2 настолько быстрее?
🟠Какая стратегия оптимизации сработает еще лучше?
🟠Напиши ядро, которое превзойдет их все.

Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.

🟡Отдельная история - как победили reward hacking.

После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.

Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.

Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.

🟡Пришлось строить многоуровневую защиту.

Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.

Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.

И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.

🟡После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными.

Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.

Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.

Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.

🟡Самое важное - это переносимость оптимизаций.

Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.

Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).

▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU.


📌Лицензирование: GPL-3.0 License.


🟡Страница проекта
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce #ContrastiveRL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥5👍3
CUTLASS 4.1 — фреймворк для высокопроизводительных матричных вычислений на CUDA. Библиотека NVIDIA предоставляет низкоуровневые абстракции для эффективной реализации операций линейной алгебры на GPU. Последняя версия добавляет поддержку архитектур Blackwell и экспериментальный Python-интерфейс CuTe DSL для быстрой разработки ядер без глубоких знаний C++.

Инструмент имеет гибкую систему шаблонов, позволяющая тонко настраивать вычисления под разные типы данных и аппаратные особенности современных GPU NVIDIA.

🤖 GitHub

@cpluspluc
6🔥4👍2🥰2
📚 Огромная коллекция шпаргалок для разработчиков — на одном GitHub-репозитории:

Что внутри:
Языки (Python, JavaScript, Go, Rust, C++)
Инструменты (Git, Docker, Linux)
Алгоритмы и структуры данных
Системный дизайн и SQL
И даже темы по DevOps, Cloud, AI и Security

Удобно, когда нужно быстро освежить синтаксис, вспомнить команды или подготовиться к собеседованию.

🔥 Забирай в закладки — пригодится каждому разработчику.

https://github.com/crescentpartha/CheatSheets-for-Developers


@cpluspluc
🔥93🥰2
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

E-CUP 2025 — соревнование, где Everything as code. Решай ML-задачи в стиле Ozon Tech. Призовой фонд — 7 200 000 рублей 🔥

Хочешь участвовать, но не знаешь, с чего начать? Codenrock подготовил курс для новичков — простой и понятный разбор типичных задач, форматов и подходов в машинном обучении. Регистрируйся, изучай и побеждай!

🗓 Регистрация: https://cnrlink.com/ecup25cplusplus
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Призовой фонд — 7 200 000 рублей для девяти сильнейших команд.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч и подарки.
🔹 Питчинг — онлайн или очно на конференции E-CODE. Финалистам Ozon Tech предоставит билеты и оплатит поездку.

Регистрация открыта до 17 августа включительно
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
🎨 LunaSVG — легковесная библиотека для рендеринга SVG на C++. Проект предлагает простое и эффективное решение для работы с векторной графикой — от базового рендеринга SVG до динамического изменения стилей через CSS.

Библиотека поддерживает большинство элементов SVG 1.1/1.2 Tiny и легко интегрируется в проекты через CMake или Meson. Она имеет минималистичный дизайн и портируемость. В комплекте идёт утилита svg2png для конвертации файлов, а сами SVG можно программно модифицировать перед отрисовкой. Подходит для встраивания в движки игр и GUI-фреймворки.

🤖 GitHub

@cpluspluc
11👍2🔥1
🚀 ADeus — ваш open-source AI-ассистент на носимом устройстве!

🎯 Записывает и транскрибирует всё, что вы слышите и говорите, сохраняет это на ваш сервер. Через мобильное/веб‑приложение вы общаетесь с ADeus уже в контексте — никаких сторонних облаков.

🔧 Состав:
• ACM‑металлическое устройство
• Мобильное/веб UI
• Supabase backend + LLM интеграция

💰 Стоимость ≈ 100 USD (DIY) за устройство и открытый код

Более 3 200 звёзд на GitHub, 19 контрибьюторов, активные фичи: Bluetooth, diarization, voice‑activity detection и UI‑улучшения.

📚 Подробнее:

GitHub: https://github.com/adamcohenhillel/ADeus
Документация: https://docs.adeus.ai/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍1
Magic Enum — элегантная C++17 библиотека для работы с перечислениями, которая добавляет в них магию рефлексии. Без макросов и boilerplate-кода она позволяет легко преобразовывать enum в строки, проверять наличие значений и даже работать с битовыми флагами.

Библиотека сохраняет constexpr-контекст и поддерживает даже такие экзотические операции, как склейку enum-ов для многоуровневых switch-блоков. Хотя проект заточен под компактные перечисления, его уже используют в продакшене, например, для сериализации или валидации конфигов.

🤖 GitHub

@cpluspluc
🔥10👍64🤬1
Media is too big
VIEW IN TELEGRAM
🚀 YADRO приглашает C++ разработчиков в команду OpenBMC и встроенных систем!

Если вы хотите создавать сложное программное обеспечение для серверов и систем хранения данных, работать с передовыми технологиями Linux и участвовать в проектах open source, то эта возможность для вас.

📌 Кого мы ищем:

• Ведущего разработчика C++ (Linux/OpenBMC)
• Ведущего разработчика интерфейсов встроенных систем
• TeamLead разработки OpenBMC

🧰 Технологический стек и задачи:

• C++ (стандарты 17, 20, 23), STL, Boost
• Linux-среда, systemd, D-Bus, Yocto, bash, Python
• Работа с ядром прошивки OpenBMC, взаимодействие с UEFI/BIOS
• Разработка и поддержка сложных интерфейсов встроенных систем

💼 Условия работы:

• Гибкий формат: удалённо или в офисах в Москве, Санкт-Петербурге, Екатеринбурге, Нижнем Новгороде и Минске
• Работа с масштабными проектами в уникальной команде инженеров
• Возможность горизонтального и вертикального карьерного роста

💙 Узнайте больше и откликайтесь на вакансии прямо на сайте!
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣4
This media is not supported in your browser
VIEW IN TELEGRAM
База для плюсов 🥲

@cpluspluc
33😁9👍1🔥1
🖥 Круговорот сильных мужчин в IT
Please open Telegram to view this post
VIEW IN TELEGRAM
46🔥23😁17👍7🥱2🥴1
🖥 Теперь писать сложные промты самому не обязательно — OpenAI выпустили генератор, который превращает даже простой запрос в подробную инструкцию для ИИ.

Принцип простой: описываете, что хотите получить, нажимаете Optimize — GPT-5 анализирует запрос и выдаёт готовый детализированный промт. Работает бесплатно.

Инструмент может упростить работу с любыми нейросетями, особенно если у вас нет опыта в составлении промтов.

Готовый вы можете сразу попробовать в @Chatgpturbobot
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1