Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🚨 ANTHROPIC ОТКЛЮЧИЛА OPENAI ОТ ДОСТУПА К CLAUDE

> Anthropic отозвала доступ OpenAI к API своих моделей Claude
> Заявление: “Технические сотрудники OpenAI использовали наши инструменты для программирования перед запуском GPT-5”
> “К сожалению, это прямое нарушение условий использования”

🔥 Кажется, война ИИ-компаний вышла на новый уровень.

@data_analysis_ml

#GPT5 #openai #ANTHROPIC

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11😱5😁4👍3❤2

2.71K views10:19

Data Science by ODS.ai 🦜

всем привет, сегодня пятый выпуск подкаста "Капитанский мостик", он как всегда посвящен важным новостям прошедшей недели; в этот ведущих было трое: Валентин Малых, Дмитрий Колодезев и Алексей Натекин; видео тут:

VK Video

YouTube

в качестве пасхалочки, слушайте у Натекина на фоне петухов и прочую сельскую живность; присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)

1❤1🔥1

2.25K views07:02

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟

Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. .

Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.

Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.

🟢

На первом этапе система училась писать корректный и компилируемый CUDA-код.

Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.

🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные.

🟢Самое интересное - третий этап.

Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:

🟠Почему kernel_v2 настолько быстрее?
🟠Какая стратегия оптимизации сработает еще лучше?
🟠Напиши ядро, которое превзойдет их все.

Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.

🟡

Отдельная история - как победили reward hacking.

После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.

Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.

Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.

🟡

Пришлось строить многоуровневую защиту.

Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.

Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.

И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.

🟡

После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными.

Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.

Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.

Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.

🟡

Самое важное - это переносимость оптимизаций.

Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.

Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).

▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU.

📌Лицензирование: GPL-3.0 License.

🟡

Страница проекта

🟡

Arxiv

🟡

Demo

🖥

Github

@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce #ContrastiveRL

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥8❤3

2.74K views07:42

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🔥 GPT-OSS — открытые модели для продвинутого reasoning и агентных задач от OpenAI

🧠 Представлено два варианта:
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU

💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)

✔️ Особенности:
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o

Младшая модель может запускаться даже на локальном железе!

🏴‍☠️

Лицензирование: Apache 2.0

https://github.com/huggingface/transformers/releases/tag/v4.55.0

🚀 Попробовать можно тут: https://www.gpt-oss.com/

💥

Официальный релиз: https://openai.com/open-models

@ai_machinelearning_big_data

#openai #opensource #chatgpt

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤4👍3

1.8K views17:11

Data Science by ODS.ai 🦜

Forwarded from AI VK Hub

Проблема галлюцинаций LLM не нова. Галлюцинируют даже самые мощные и новые модели.

Чтобы улучшить фактологическую точность LLM, мы попробовали применить инструмент FActScore-turbo. Он оценивает точность генерации, сравнивая содержащиеся в ней факты с проверенной базой данных.

Кратко рассказываем, как прошёл наш эксперимент. За подробностями — сюда.

😁4❤3👍1

2.13K views10:55

Data Science by ODS.ai 🦜

Forwarded from Russian OSINT

Context engineering — новый prompt engineering?

⌨️

Если раньше все учились все учились правильно просить у нейросетей, то теперь на первый план выходит context engineering — умение подавать модели нужную информацию до того, как она начнет генерировать ответ.

Что такое context engineering

❓

Это системный подход к тому, какие данные получает модель, в каком виде и в какой последовательности:

➡️ Отбор: находим нужные документы или фрагменты из базы знаний.
Чтобы настроить ходить в нужный вам источники, можно использовать RAG.
➡️ Форматирование: чистим, сжимаем, избавляемся от дублирования.
➡️ Упаковка: компонуем все в «окно контекста» модели — с нужной структурой, подсказками, примерами.

Почему это важно?

😶‍🌫️Чтобы получать реально релевантные ответы от нейросети, создавать своих эффективных AI-ассистентов и агентов, нужно следить за качеством контекста, который вы предоставляете.
😶‍🌫️Чтобы точно дополнять контекст для генерации ответов LLM-модели, вы можете использовать уже готовые инструменты.

Например, в Cloud․ru есть готовый сервис Evolution Managed RAG для обогащения языковой модели вашими данными. Загружайте файлы в хранилище, а сервис самостоятельно предоставит модели актуальную информацию по вашим документам для генерации точных ответов.

Please open Telegram to view this post

VIEW IN TELEGRAM

💊5👍2😐1

2.44K views11:12

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🔥🔥ChatGPT-5 выглядит очень круто, особенно в кодинге!

Альтман заявляет, что модель дадут даже бесплатным пользователям и прямо сегодня.

https://openai.com/index/introducing-gpt-5/

Стрим, кстати, смотрят 155 к человек: https://www.youtube.com/watch?v=0Uu_VJeVVfo

@ai_machinelearning_big_data

#Chatgpt5

❤5🔥3👍1

2.86K views17:13

Data Science by ODS.ai 🦜

Forwarded from Белый хакер

🖌

Cursor AI: уязвимости и критические баги, раскрытые в ИИ-редакторе кода

Привет, айтишники! Недавно специалисты Check Point нашли несколько уязвимостей в популярном ИИ-редакторе кода Cursor AI, которые открывали огромные возможности для атакующих. Если ты разработчик или работаешь с подобными инструментами, эти баги тебя могут коснуться, потому что они позволяют внедрить произвольный код без ведома пользователя.

🧑‍💻 Основная угроза заключалась в уязвимости CVE-2025-54136, известной как MCPoison, которая позволяла атакующим скрытно изменять конфигурацию MCP-сервера, приводя к запуску вредоносного кода каждый раз при открытии проекта. После того как конфигурация была одобрена один раз, система больше не запрашивала подтверждения при её изменении. В результате, злоумышленники могли подменить безобидные команды на реверс-шелл.

🔔 Кроме того, в Cursor обнаружена ещё одна серьёзная уязвимость под названием CurXecute, которая позволяла злоумышленникам использовать косвенные инъекции промптов для изменения конфигурационных файлов и выполнения произвольного кода на удалённых системах. Это открывает возможности для атак через внешние серверы MCP, что создаёт новые угрозы в разработке.

👤 Что интересно, это только начало. Исследования продолжаются, и специалисты предупреждают о возможности ещё более опасных уязвимостей в этой области. В новой версии Cursor (1.3), были устранены все найденные проблемы, включая необходимость повторного подтверждения для всех изменений конфигурации.

P. S Безопасность в инструментах для разработчиков должна быть на первом месте, и, я считаю, такие уязвимости не стоит игнорировать.

#CursorAI #Уязвимость

👍

Белый хакер

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🤯2

2.54K views18:11

About

Blog

Apps

Platform